本記事では、データ分析の敵とも言えるデータの「欠損値」の発生パターンについて書きます。特に欠損値には発生パターンがあるということを最近人から教えていただきましたので、それを調べたので備忘録として書かせていただきます。
はじめに
先日欠損値について、調べていて、詳しい人に聞いてみると「確か欠損値には発生パターンがあるっていう論文があった気がするよ」と教えてくれました。ナイス同僚。
ということで、欠損値に発生パターンがあるというそんな論文の内容を噛み砕いて、要点をまとめてみました。
誤りなどがありましたら、ご指摘いただけますと幸いです。どうか温かくお見守り下さい。
該当の論文
https://koumurayama.com/koujapanese/missing_data.pdf
村山航さんの「欠損データ分析(missing data analysis) -完全情報最尤推定法と多重代入法-」を参照して本記事を作成しています。
こちらのリンクから該当する論文を見ることができます。「村山航」さんという方のものになります。調べてみたところ、おそらくレディング大学の先生のようです。凄そうな経歴の方でした。
3種類の発生パターン
MCAR
MCARはMissing Completely At Randomの略で、完全にランダムに欠損値が発生しているパターン。要するに、たまたま欠損値が生まれてしまったパターン。
MAR
MARはMissing At Randomの略。ランダムに欠損しているものの、その関係性は、何かの変数の影響を受けて、欠損が発生しているパターンです。
変数Xをテスト1の点数として、ある点数以下の場合はテスト2が採点されないとする。(IPAの試験みたいですね)その時、テスト2の得点から身長を予測するタスクがあったとする。説明変数がテスト2だけしか見えていない時、欠損はランダムに発生しているように見える。
これがMAR(Missing At Random)です。
MNAR
MNARはMissing Not At Randomの略です。日本語の略としては、「ランダムに発生していない欠損」です。簡単にイメージできると思います。
欠損が発生している理由が、欠損していなかった場合(真の値)に依存している場合のことです。
不合格だったことを言いたくないので、得点を答えない。というようなパターンです。なるほど、これはわかりやすい。
欠損に対する対応
欠損への対応は、多くの場合で、「完全情報最尤推定法」を用いることで対応できると考えられています。
ただ、MNARについては、補助変数を用いることで、MARにすることができる可能性があります。MARにすることができれば、「完全情報最尤推定法」を用いることができます。
また欠損値は、小難しいことまでしなくても、欠損が発生しているデータの性質を理解している場合は、代表値を用いて代入する方法も当然あります。
平均値や中央値、回帰などで推定して代入するなどの方法があると思いますが、データの性質や欠損の原因などを知っている場合は、この対応でも問題ないかと思います。
欠損値に対して、対応する方法は一つでも多く知っている方が間違いなく良いかと思います。この記事を読んで、ぜひ一つ二つと引き出しを増やしていただければ幸いです。
ざっくりのイメージ
さて、この論文のざっくりのイメージですが、以下のようなものをイメージしていただければと思います。
この図の見方は、画像にある通り、Yが欠損値のある変数。Rが欠損値の有無をコーディングした確率変数。Xは分析に含まれるその他の変数です。
一番左側のMCARは欠損値が変数から独立して発生しています。真ん中のMARは、欠損値が発生している変数からは独立していて、他の変数に関連して発生しています。最後一番右のMNARは欠損値が発生している変数と他の変数に関連して発生しています。
このような形の意味合いとなります。これでなんとなく、どのような形で欠損が生まれているのか「発生パターン」が見えてきたかと思います。
まとめ
以上となります。
欠損値の発生パターンと聞いて、ちょっと構えてしまうような感じでしたが、考え方としてはシンプルでしたね。こうやってシンプルに考えて、体系的にまとめることが出来るので、頭の良い学者さんなんですね。
上記で紹介した論文は、この発生パターンの欠損値に対してどのように代入していけば良いかということについて論じています。(完全情報最尤推定法など)
その部分については、少し難しくなっていくので省略させていただきます。
欠損値には発生パターンがあることと、それに対応する対応方があるということを本記事から得ていただければと思います。
最後まで読んでいただき、ありがとうございました。
参照サイト
以下のサイトが非常にわかりやすかったです!
コメント