書籍メモとして、備忘録です。
【書籍情報】
書籍名:分析者のためのデータ解釈学入門 データの本質を捉える技術
著者:江崎貴裕
出版社:ソシム
第1章 観測は簡単ではない
Garbage in, garbage out
データ分析における有名な慣用句だそうで、その日本語訳は「ゴミを入れればゴミが出てくる」というもの。
もっと平易に言うと「クソみたいなデータじゃ何もわかんねえ」といった感じでしょうか。
データサイエンティストの方で、分析しているデータを発生・取得する部分から自らで定義して行っている人は少ないかと思う。「自分ならこんなデータも取得して、こんな切り口で分析して、こんな結果が出ると思うんだよなー」と言う仮説を持っていると、さらに上のステップへ進んでいけるんじゃないでしょうか。
じゃあみんな良いデータを集めればいいじゃん
そうは言っても簡単ではないデータ取得。
データの取得にはお金がかかると言うことを理解しておく必要があるでしょう。お金をかけてゴミデータなんてことにならないように気をつけましょう。
その他、本テキストでは、以下のような注意点を挙げています。
- 測定による情報の欠落
- 一見関係がある指標が紛れ込む
- 標準化による情報の欠落
まとめ
- ゴミデータはゴミ結果しか生まない
- いいデータを取得する必要がある
- しかし簡単にはいいデータを取得出来ない
- いいデータ・簡単にデータを取得するための方法論があるが、それらには落とし穴がある
第2章 誤差とばらつき
誤差とは
誤差とは、「真の値」と「その真の値を観測した時に観測される値」の差である。
そんな誤差ですが、偶然誤差と呼ばれるものと系統誤差と呼ばれる誤差があります。
- 偶然誤差・・・ランダムに発生する、ある程度しょうがない誤差
- 系統誤差・・・何か原因があって発生する、一定の誤差
系統誤差については、明確な原因をある程度特定することができ、そしてその原因を取り除くことも可能なことが多い。そのため原因を特定できたらその要因を取り除き、偶然誤差によるばらつきのみになるようにする必要がある。
ばらつき
ここからは、みなさんもよくご存知の統計学的な範囲に入ります。
ばらつきが発生する前提で、とある値(体重や身長)などを観測・計測すると、ある程度同じような計測値を示しますが、ばらつきが発生する前提での計測では、異なる結果を示すことがよくある。
この観測の試行回数を増やすと、ある観測値の計測が増えます。それをヒストグラムにするとさらに顕著に視覚的に把握することができます。さらに無限回(理論上)試行を繰り返すと綺麗な曲線を描いた「確率分布」として表すことができます。
このばらつきの原因が、何に起因しているか、と言うことが重要です。
観測上排除しきれない場合を除いて、ばらつきが発生しないように観測を工夫する必要があります。
排除しきれない場合に、この「確率分布」と言う考え方を用いて、排除できるように確率的に考える必要があります。
本テキストには統計的な代表値も紹介されております。簡単な説明を以下記載します。
平均値
$$\bar{x}=(x_{1}+x_{2}+…+x_{n})/n$$
分散
$$s^{2}=((x_{1}−\bar{x})^{2}+(x_{2}−\bar{x})^{2}+…+(x_{n}−\bar{x})^{2})/n$$
※$\bar{x}$ は前述の平均値
標準偏差
$$s=\sqrt{s^{2}}$$
※$s^{2}$ は前述の分散
数学的確率
コインを投げて、表・裏になる確率はそれぞれ1/2になるという確率のこと
そのほかには、サイコロを振って各目が出る確率が1/6になる確率のこと
いわゆる「同様に確からしい」確率のこと
統計的確率
実際に確認して求めた確率のこと
男女が生まれる確率は1/2であるが、実際の人口では微妙に異なったりもする
度数と相対度数
度数
サイコロに例えると「1」が「何回」出たか、でいう、「何回」に当たる数
相対度数
全ての度数を試行回数で割った数
全ての相対度数を足し上げると1になる
離散値と連続値
離散値は、サイコロの目(サイコロには1.5の目は存在しないということ)
連続値は理論上無限個の観測値を持つことができる
正規分布
最もよくあるパターンの分布
性質については、割愛。
中心極限定理
確率変数の値を足し合わせていくと、その和の確率分布は正規分布に近づく
この性質が中心極限定理
様々なランダムな要素が足し合わされるような状況で、よく発生する、自然な状態
大数の法則
母集団から抽出した標本の平均は、抽出する表の数が増えれば増えるほど、母集団の平均(真の値)にどんどん近づいていくということ
第3章 データに含まれるバイアス
本章では、観測されたデータにバイアスがかかっていないかを検討するためのデータの見方を解説していきます。
基準を設ける
- 定義をはっきりさせる
- データサイエンティストの推移を表したグラフがあった際に、何を持ってデータサイエンティストであるか、明記し、その定義を明確にする必要がある。
- 時間軸で観測基準などが変化していないか。とある事象などが有名になることで、その定義に引っかかる人が増えていないかなど。
- 最近は「ダイオウイカ」がよく漁獲されるが、それは本当に環境の気候変動が要因なのか、それとも話題になるから今までは誤獲で捨てていたダイオウイカを水揚げしているだけなのか、など。
選択バイアス
- データが取れていること自体がすでにバイアスがかかっているかもしれないという可能性を考える
- 有名な逸話で帰還した「戦闘機の生存バイアス」がある
- 戦闘機の損傷箇所を調査して、損傷した箇所を補強するのがセオリーだったが、墜落した戦闘機のデータが含まれておらず墜落するかしないかの致命的な傾向を見逃していたという話
- 本当は、墜落した戦闘機にこそ、致命的なデータが含まれているはずだったのに、長くこのセオリーで戦闘に向かっていたそうです。
- 多くの研究結果などでは、仮説にそぐわない実験は報告されず「たまたま」うまくいった実験でも報告されてしまう可能性もあるという事例もある。
観測介入バイアス
主にアンケートなどで散見される考慮すべきバイアス
黙従傾向
はい/いいえの回答では、肯定的な選択をしやすくなる
中心化傾向
5段階などでもっとも当てはまるものを選択する質問では、「どちらでもない」などの真ん中の度合いを持つ選択肢を選択しやすくなる
キャリーオーバー傾向
前の質問が次の質問へ影響する傾向のこと
質問文での誘導
質問の前半部分を用いて望ましい回答へ誘導する
こういったアンケート形式のデータには、結果から理由を後付けして、都合の良い解釈をしがちです。
そのほかのバイアス
単位のミスに起因するバイアス
人為的な入力ミスに起因するバイアス
ここら辺はハズレ値としてうまく処理しましょう。
以上。
コメント