【書籍メモ】『データ解釈学』第4章〜第5章

統計学

【書籍情報】
書籍名:分析者のためのデータ解釈学入門 データの本質を捉える技術
著者:江崎貴裕
出版社:ソシム

第4章 交絡因子と因果関係

相関と因果関係


相関関係とは、「xが上昇するとyも上昇する」などのことであり、相関関係にあると表現する。また、相関係数は-1 ~ 1の範囲の値をとり、絶対値が大きくなるほど強い相関関係を表す

よく似たものに因果関係があります。
因果関係とは「原因xによって結果yが生じる」ということです。原因に対して結果が因果関係で、結果同士の関係性が相関関係です。
要するに、因果関係は原因に対して結果があるのに対して、相関関係は原因の特定をすることはできないのです。
例:因果関係「肺がん(原因)で死んでしまった(結果)」
例:相関関係「肺がんで死ぬ人(事象x)はタバコを吸っている人が多い(事象y)」
 → 相関関係では、死ぬことの原因をタバコとするのは早計であるということ

しかし、相関関係というものは、2変数間の関係性を表していることに注意する必要がある。
どういうことかというと、よく例えられる例として「アイスクリームの売り上げが上がると熱中症患者が増える」という関係である。常識で考えれば気温が真の要因として考えられるが、データだけでは、真の原因が気温ということが分からなく、関係のない二つの要因の関係性を真の要因かのように考えてしまうことも起こりうる。 特にその分野にまだ詳しくないうちは要注意である。

そんな要注意事項を解決する「交絡因子」を次項でご紹介いたします。

交絡因子

まず交絡因子とは、 「原因となる変数と関連し、かつ結果の変数と因果関係を持つ要因のこと」 といいます。
前述のアイスクリームと熱中症の例で言うと、気温が交絡因子に当たります。この交絡因子を正しく評価して分析を行わなければ、一見正しい分析結果となるが、真の課題解決には繋がらないことになってしまう。

この交絡因子に対して、本テキストではさまざまな方法での対処方法が紹介されているので以下ご紹介いたします。

ランダム化比較試験(RCT)

  • 臨床実験やいわゆる治験で行われる投薬実験などで行われることが多い
  • 比較対象同士を群として比較する
  • 平均処置効果と言う評価基準を用いて評価する
  • 処理群/実験群 と 対照群/統制群 で比較する

重回帰分析/ロジスティック回帰分析

こちらについては、説明を省略します。

回帰不連続デザイン

本サイトに解説記事がございますので、コチラからどうぞ!!

本書籍の勉強時に参考にしたサイトのリンクを貼ります。ご参考まで。https://healthpolicyhealthecon.com/2015/05/16/regression_discontinuity_design/
https://note.com/koheihonda/n/n04c6a1eaca64

傾向スコアマッチング

  • 例として「タバコを吸っているかどうか」が健康にどれくらい影響があるかを調べる
  • 仮説として「飲酒の習慣」と「経済状況」影響するとして、そのデータも得られているとする
  • このまま喫煙者/非喫煙者でグループ分けをして分析してもタバコ以外の要因も影響して真の影響度を推定することができない
  • そこで傾向スコアマッチング!
  • タバコを吸っているかどうかを、それ以外の情報からロジスティック回帰でどれくらいと予想されるかを表現する
  • これを傾向スコアとする
  • 同程度の傾向スコア群で喫煙/非喫煙をグループ化して比較する
傾向スコアマッチンのイメージ図

第5章 データサンプリングの方法論

本章ではサクッと解説していきます。

無作為抽出

単純無作為抽出

完全にランダムで抽出していく方法

系統抽出

リストから等間隔で抽出していく方法

層化多段抽出

多段 → 例:市区町村をランダムに選び次に抽出された市区町村に住む個人をランダムに抽出する
層化 → 例:市区町村をその都市の人口規模でグループ分けして抽出する

「層化」して「多段」で抽出するのが「層化多段抽出法」

クラスター抽出

似た性質をもったクラスター(群)から抽出する
例:「あるユーザーと繋がっているユーザー全員分の情報を取得する」

有意抽出

無作為抽出と対比的に「母集団を代表していると思われる対象たち」を主観的に選んで抽出する方法

便宜的抽出

データを取りやすい対象を抽出する方法

様々な抽出方法の比較

カバレッジ誤差

抽出する標本にどうしても含まれることのない対象群によって生じる誤差のこと
例:電話による調査では電話番号を持たないような人は抽出されないなど

抽出によるバイアス

面接調査

回答できる状況にあるひとしかサンプリングできない
答えにくい場合に嘘の回答する傾向にある

郵送調査

返送を伴うと「それをわざわざやってくれる」人に回答が集中してしまう
謝礼を設けるとその謝礼に反応する人に回答が偏ってしまう

電話調査法

電話に出られる人に偏ってしまう
携帯電話でも知らない番号からの番号は取らないというのは、結果に影響を及ぼさない程の軽微なものであると考えられている
→ 個人的には軽微では無いと思います。知らない番号からを出たとしてもアンケートだったら電話切りません?特に自動音声とかだったら「は?なめんてんの?」ってなりますよね???

インターネットでの調査

シニア世代などインターネットに馴染みのない世代からの回答を集めにくい

集団に回答を依頼する場合

比較的有効ではあるが、生存者バイアスが問題とならないか注意が必要

募集によるサンプリング

志願者バイアスが発生する可能性がある

以上。

コチラもどうぞ

データサイエンティストの書評ブログ
趣味が読書くらいしかない駆け出しデータサイエンティストの書評ブログです。日々の勉強のアウトプットや趣味の読書のおすすめをしていきます。
【書籍メモ】『データ解釈学』第1章〜第3章
書籍メモとして、備忘録です。 【書籍情報】書籍名:分析者のためのデータ解釈学入門 データの本質を捉える技術著者:江崎貴裕出版社:ソシム (function(b,c,f,g,a,d,e){b.MoshimoAffiliateObject=a;...

https://zizou-book-lab.com/data_interpretation_6to8/

https://zizou-book-lab.com/data_interpretation_9to10/

https://zizou-book-lab.com/data_interpretation_11/

コメント