書籍メモとして、備忘録です。
【書籍情報】
書籍名:分析者のためのデータ解釈学入門 データの本質を捉える技術
著者:江崎貴裕
出版社:ソシム
データ分析の罠
この章で言っていることは大きく分けて3つです。
①『FACTFULNESS』の内容そのままバリに「見せ方に騙されるな/騙すな」
②取れているデータに固執するな
③目的や手法に合意した上での結果には異論を唱えない
以上となります。
①についてはそのままです。 「FACTFULNESS」を読んでいない人は読みましょう。データサイエンティスト必読書だと思います。
②については、そのままではありますが、裏メッセージとしては、「時には振り出しに戻る勇気も大事」ということだと思います。
③「結果が思っていたのと違う=分析が悪い」ということではありません。
分析者にこの解釈をする人は多くないと思いますが、依頼者がこう思うこともあると思います。おかしいという主張を受け入れつつも、プロセスをしっかり説明し、理解してもらう必要があります。
データ解釈の罠
この章で言っていることは大きく分けて2つです。
①分析結果の信頼性
②解釈時のバイアス
以上となります。
①については、分析が再現できるかという観点に立ちます。まず、同じようにデータを観測することができるか(使っているデータがそもそも異常ではないか)、そしてどの分析者が分析しても同じ結論にたどり着くか(手法などが異なれば異なる結論になることもしばしば。)。
学術的な分野で利用されることが多いものの、後ろ指を指されないためのガイドラインもある。
- データ取得を始める前に、どこまでデータを取るのかを決定し報告する
- 一つの条件につき、最低でも20の観測値を集める
- 収集した全ての変数について報告する
- データを取得した全ての実験条件を報告する
- もし観測値を取り除く場合は、それを取り除かなかった結果も示す
- 分析で、ある変数の影響を取り除く操作(共変量の統制)を行った場合は、そうしなかった場合の結果も示す
他にも、Hillの基準というものもあり、因果関係の判定を行うために用いられる。
- 頑強性
- 一貫性
- 特異性
- 時間性
- 用量反応性
- 妥当性
- 整合性
- 実験の有無
- 類似性
詳細は割愛します。
続いて②の解釈時のバイアスについて。
こちらについては、「 都合よく解釈するな 」この一言につきます。突き詰めればキリはないと思いますが、企業の出している「当社についてのアンケート結果です!40代女性から圧倒的な支持!」こう言った類の解釈はほぼ間違いなくバイアスが入っています。こう言ったものに加担したくはないですね。
以上。
コチラもどうぞ
https://zizou-book-lab.com/data_interpretation_1to3/
https://zizou-book-lab.com/data_interpretation_4to5/
コメント