データ分析

Python

【Python】データフレームで文字を指定して列を分割する(pd.DataFrame / str.split)

本記事は、PythonのライブラリPandasのデータフレームの列の分割について解説した記事になります。データフレームの1列を分割するようなシチュエーションは、だいたい前処理の過程でしょう。例えばメールアドレスからドメイン数を集計したかった...
Python

【Python】データフレームのメソッドから簡単に棒グラフを作成する(DataFrame.plot.bar)

PythonのライブラリPandasのDataFrameのメソッドを使用して簡単にさまざまなグラフを生成することができます。本記事では、棒グラフの生成を解説します。棒グラフはカテゴリーの数量などを表示することに適しています。またカテゴリーに...
コラム

【データサイエンティスト協会】スキルチェックリストの紹介

先日、データサインティスト検定の試験日程などが発表されました。私は第1回受験の合格者ということもあり、データサイエンティスト検定(DS検定)が盛り上がりを見せてくれると嬉しい気持ちになります。さて、そんなデータサイエンティスト検定ですが、現...
Python

【Python】進捗表示(プログレスバー)で使えるtqdm(tqdm.tqdm)

本記事は、Pythonの繰り返し処理for文で進捗状態を表示できる「tqdm」について紹介いたします。私自身データサイエンティストとして業務を行なっていますが、Pythonでの処理が多く、かつデータ量も多かったりするので、そんなときにこの「...
Python

【Python】データフレームのメソッドから簡単に折れ線グラフを作成する(DataFrame.plot.line)

PythonのライブラリPandasのDataFrameのメソッドを使用して簡単にさまざまなグラフを生成することができます。本記事では、折れ線グラフの生成を解説します。折れ線グラフは、連続する要素の変化に対して結果の推移を表す際に使用される...
Python

【Python】データフレームのメソッドから簡単に散布図を生成する(DataFrame.plot.scatter)

本記事では、PythonのライブラリPandasのDataFrameのメソッドを使用して簡単にさまざまなグラフを生成することができます。本記事では、散布図の生成を解説します。散布図はデータの分布などを可視化する際に使用することが多いです。主...
Python

【Python】データフレームの最大値の行名・列名を取得する(DataFrame.idxmax)

こんにちは。本記事では、PythonのライブラリであるPandasのデータフレームでの最大値を持つ行名・列名の取得について取り扱います。特に最大値がデーアフレーム内のどこにあるかを特定させたい場合などに、使用することが多いイメージです。私も...
統計学

欠損値には発生パターンがあるらしい(MCAR, MAR, MNAR)

本記事では、データ分析の敵とも言えるデータの「欠損値」の発生パターンについて書きます。特に欠損値には発生パターンがあるということを最近人から教えていただきましたので、それを調べたので備忘録として書かせていただきます。 はじめに 先日欠損値に...
Python

【Python】Pandasデータフレームの列をインデックスに変換する(DataFrame.set_index)

本記事では、PythonライブラリPandasの、データフレームの列をインデックスに変換する処理を紹介・解説します。難しいことはないので、コードを読んでサクッと次の処理へ進んでって下さい。列→インデックス、インデックス→列の変換は、私のデー...
Python

【Python】データフレームを条件抽出する(DataFrame.query)

本記事はPythonのライブラリである「Pandas」のデータフレームのデータ抽出について取り扱います。SQLのように、テーブル上のデータに条件をかけてその条件に該当する行を抽出するにはどうしたら良いか解説いたします。 該当コード まずはシ...