【書籍メモ】『データ解釈学』第６章〜第８章 - データサイエンティストの書評ブログ

書籍メモとして、備忘録です。

【書籍情報】
書籍名：分析者のためのデータ解釈学入門　データの本質を捉える技術
著者：江崎貴裕
出版社：ソシム

リンク

第6章　データの扱い
第7章　一変数データの振る舞い
第8章　変数の間の関係を調べる
1. 仮説検定
2. 相関
コチラもどうぞ

第6章　データの扱い

データの確認

誤ったデータでの分析を基に意思決定を行えば、十中八九、意図しない結果を招き、大きな損失や信頼の失墜などを招くことになるでしょう。
そういったことが発生しないように、どんなデータ分析でも、間違いが発生しないように最新の注意を払いましょう。

具体的には

単位
桁
外れ値

こういったミスが発生する主な原因は、手入力によるミスが多いと言われています。もちろん正しく観測して異常な数値となるものについては、「外れ値」として考えられ、その外れ値を除外できるかどうかを検討する必要があります。

基本的なラインとなるのは、その数値が論理的にありえるかどうかです。身長を計測しているのにマイナスの値となっていたりなどがあげられます。一方除外するこのできない外れ値として、代表的なものに、所得や自然災害などが挙げられます。また金融の分野では確率に基づいてリスクを無視する場面もあるそうですが、2008年のリーマンショックでは無視したほどの小さな確率のリスクが実際に発生したそうです。

データの操作

さてここまでで、使用するデータに誤りがなくなりました。ここから分析のステップに進んでいきますが、データを操作する際の注意点をご紹介いたします。

この章をまとめると、

分析の各ステップでの処理結果・計算結果を明示し想定している動きになっているか確認すること
実際に処理するためのコードは統一する
統一したコードを管理する

要するに分析作業に関係する分析者や分析の依頼者などがお互いに共通の理解を得られるような操作を行いましょうと言うことになります。

よくあることとしては、依頼者が統計処理についてわからない場合、各ステップを噛み砕いて説明し理解してもらう必要も当然生じます。これができると一段レベルアップした分析者になれる個人的には思っています。

データの保管

データの保管に関しても重要です。いつでも確認できるように保管することと、それをどれくらいの期間保持するかも重要になります。学術的な分野では、10年間保持する必要があったり、会社の証憑類なども種類に応じて保管期間が決まっていたはずです。
それと同時に、保管しているデータが攻撃を受けないようにするセキュリティについても非常に重要になります。

今回セキュリティについては触れませんが、個人情報などについて触れます。

個人情報というデータは法律によって厳格な扱いを受ける対象になります。安易に個人情報を取得するのは非常に危険です。

そんな個人情報とは何かを解説すると、個人を識別できるものであると、個人情報と考えることができます。すなわち、氏名と生年月日の組合わせやパスポート番号、会員情報なども含まれます。
しかし、個人情報というのは、企業活動において非常に強力な企業資産です。多くの顧客を抱えることは、それすなわち多くの顧客を知っていることと同義ともいえます。それを同義とするためには、個人情報の活用が不可欠になります。

その厳格な扱いを受ける個人情報を最大限活用するために必要プロセスとして、匿名加工になります。これは要するに個人を特定できなくさせる処理のことです。
何が個人情報になってどんな処理をすれば大丈夫かというのはこの場での説明を避けますが、個人情報を扱う際は、この制限を受けることを頭に入れて、場合によっては法律を犯してしまうと考えられていれば必然的に、慎重な扱いになると思います。各ステップでの作業に細心の注意を払いながら作業を進めていきましょう。

第7章　一変数データの振る舞い

記述統計量

こちらの項目については、皆さんもよくご存知かと思いますし、そんなに難しい内容ではないので羅列して終了します。

質的変数／量的変数
記述統計量・要約統計量
中央値
最頻値
最大値／最小値
四分位数
箱ひげ図・四分位範囲

分布

本書では、分布による可視化は目的に応じて可視化していきましょうと述べています。
本章のグラフによる可視化の部分は、本書より『イシューからはじめよ』に分かりやすいパターンの記載があるので、どうぞ参考にしてください。（『イシューからはじめよ　p.156参照』）

さて、そのほかに本書では、実際に観測されたヒストグラムなどを理論分布の比較をすることを勧めています。
以下列挙しますので、自学の参考にどうぞ

幾何分布
二項分布
負の二項分布
ポアソン分布
指数分布
ガンマ分布
対数正規分布
パレート分布・レヴィ分布・ワイブル分布

時系列データ

時系列データの扱いは非常に難しいと認識するのが良い。なぜかというと、時間そのものが影響を与えている変数ではないから。
いいですね、ここら辺ガッツリ勉強して見ようかな。ちなみに、本書の中で紹介されている時系列関係の書籍をご紹介しておきます。

『データ分析入門のための数理モデル入門』出版：ソシム
『時系列解析入門：線形システムから非線形システムへ』出版：サイエンス社
『時系列分析と状態空間モデルの基礎』出版：プレアデス出版
『経済・ファイナンスデータの計量時系列分析』出版：朝倉書店

リンク

さて、内容に入っていきます。
本書の時系列データでは、自己相関について言及されています。

こんな感じで、周期性を判断し、周期的な相関を見ていきましょう、その過去の値から未来の値に影響を与えているかを定量的に見る方法を自己相関と言います。

本書の内容でも、これ以上踏み込んでおりませんので、本記事でもここまでにしておきます。

第8章　変数の間の関係を調べる

仮説検定

統計検定の勉強などされている方などは問題を解く上で仮説検定をよく使うと思います。
この仮説検定は、「帰無仮説」と「対立仮説」を用いて、仮説を検証する方法です。
基本的には、違うと思われる逆説的な仮説を「帰無仮説」として設定し、この「帰無仮説」は成り立たないから「対立仮説」が正しいという論証の方法になります。

例として、以下のものがあります。

トレンディエンジェルの斎藤さんはハゲである。という仮説を検証してみます。

帰無仮説　→　トレンディエンジェル斎藤さんはハゲではない
事実（計算の結果など）　→　1000人にアンケートをとってトレンディエンジェルの斎藤さんはハゲと答えた人は999人いた
帰無仮説　→　ハゲではないとは言えない　→　正しくない仮説となる
対立仮説　→　NOT 帰無仮説となる内容が正しい
対立仮説　→　トレンディエンジェル斎藤さんはハゲである

さて、これはごく簡単な例を用いて考え方をご紹介いたしました。
統計的に利用する際は、有意水準などを用いて確率的に起こり得ない（ほぼ起こるとは考えにくい）と考えて、帰無仮説を棄却するという論証を用います。

本記事では、具体的な検証については、省略させていただきます。
また、本章にて紹介されている検定については以下の通りです。

F検定
スチューデントのt検定
ウェルチのt検定
対応のあるt検定
ウィルコクソンの符号順位検定

などが挙げられています。

相関

相関とは二変数間の関係性を表したものになります。言わずもがなだと思いますが。
相関係数とは、その関係性を端的に表した数字として非常に有用ですが、実際にプロットなどをして、その関係性を確認する必要があります。相関係数の大小を見るだけでは分析として成り立たないことに注意しましょう。

さて、相関係数とは

−1　≦　相関係数　≦　1

の範囲で値を取り、絶対値が大きければ大きいだけ、強い相関関係にあることを表している。また、相関係数が正の値をとるとき、説明変数が増加するに従って、目的変数も増加するという関係になり、逆に相関係数が負の値をとるとき、説明変数が増加するにあたって、目的変数は減少するという関係にある。

以上。

コチラもどうぞ

データサイエンティストの書評ブログ

趣味が読書くらいしかない駆け出しデータサイエンティストの書評ブログです。日々の勉強のアウトプットや趣味の読書のおすすめをしていきます。

https://zizou-book-lab.com/data_interpretation_1to3/

https://zizou-book-lab.com/data_interpretation_4to5/

https://zizou-book-lab.com/data_interpretation_9to10/

https://zizou-book-lab.com/data_interpretation_11/