本記事では、PythonのライブラリPandasのDataFrameのメソッドを使用して簡単にさまざまなグラフを生成することができます。
本記事では、散布図の生成を解説します。散布図はデータの分布などを可視化する際に使用することが多いです。主にある一つの要因(主にx軸上にプロットされる)の結果(主にy軸上にプロットされる)について説明したグラフであることが多いです。
該当コード
まずは下準備
matplotlibのインポートも忘れずに
import pandas as pd
import matplotlib.pyplot as plt
df = pd.read_csv('data.csv')
簡単な実装方法
df.plot.scatter(x="x_axis_column", y="y_axis_column")
引数を使用して、細かい設定を追加してプロットする
よく使う引数(透過度/プロットするポイントの形)
# 透過度の設定
alpha = 0.5
# プロットするポイントの形
maker = "^"
df.plot.scatter(x="x_axis_column", y="y_axis_column", alpha=alpha, maker=maker)
解説
散布図は比較的簡単なグラフです。主に2変数に対するデータの分布を表すことが出来るので、そんなに凝った可視化を行う必要がないことが多いです。私の経験ではそんな印象です。凝ったものを出すより、さっと散布図を作った方が良いということになります。
それはさておき、上記のコードを使用して、色々と処理をしたデータフレームを簡単に散布図で可視化することが出来るので、非常に簡単です。引数の渡し方も直感的で非常に可読性も高いと思います。
さて、私も本記事の執筆に当たって改めて調べ直したところ、matplotlibの面白いページを見つけました。リンクを貼りますので、少し覗いてみてください。
こちらは、プロットの形を指定できるmakerに渡せる引数の一覧です。ちょっと凝りたい方はこちらをぜひ参照してください。
参照サイト
公式ドキュメント
安定のnkmk
まとめ
以上が、PythonのライブラリPandas、データフレームのメソッドで簡単に散布図をプロットするでした。
先ほども書いたように、データフレーム内の2変数の分布の関係性(相関の有無や特徴を含んでいるか)などを簡単に把握するためのものです。
あまり凝りすぎず、時間をかけずにデータの中身を可視化するのに最適なものとなります。
「相関係数が〇〇です」というより、散布図を見せた方が効果的なことが多々あります。そう言った際に使用するのに最適です。
ぜひともサクッと使ってみてください!
コメント