欠測データのメカニズム(1)大まかな説明

はじめに

研究やビジネスで何らかのデータを収集しようとしたとき、何らかの理由によってデータの一部が得られないこと(欠測(Missing))は日常的に存在する。例えば医学研究であれば、研究への参加者が所定の検査に来なかった・研究への参加を中止した・連絡が取れなくなった・・・などなど、様々な理由で本来得られるはずであった観測値が得られないということが起こりうる。このように、得られるはずなのに得られなかった観測値が一部存在するようなデータのことを「欠測データ(Missing data)」と呼ぶ。(ややこしいが、ここでは収集されたすべての値をまとめて「データ」と呼ぶことにし、検査や収集する項目のことを「変数」、各変数の個々の値は「観測値」と呼んで区別する。欠測データとは、「一部の観測値が欠けた(欠測した)データ」という意味で用いる。)
かつては、このような欠測データに対してあまり注意深い対処がなされることは多くなかったようで、今でもその名残りである「平均値を代入する」「(時間的に)最後に得られた値を代入する」「欠測のある個体は解析から除く」などの対応を目にすることがある。しかし、これらの方法が間違った結論を導くような場合があることはよく知られており、正しい解析を行うためには「欠測データのメカニズム」を考えることが必要だということが広く認識されるようになった。
今回は、欠測データのメカニズムの広く用いられている分類法である「MCAR」「MAR」「MNAR」それぞれの意味するところを考えていきたいと思う。
さて、まずは数式を使って話すのではなく具体的なデータ例を使うほうがわかりやすいので、次のようなデータを用意した。
f:id:mstour:20201201202223p:plain
交際相手のマッチングサービスを利用した男性300人を対象として、デート後の相手に対する満足度をアンケート調査した結果を得た。満足度は0点〜100点の間の整数値で記録されており、この図は1回目のデート後の満足度を横軸、2回目の満足度を縦軸にとった散布図である(と想像してほしい。実際には単に二変量正規分布からのサンプリングである)。このデータを使って、MCAR、MAR、MNARの違いを説明する。なお、1回目と2回目の満足度の他に利用可能な変数はない、つまり手元にあるのはこの2変数からなるデータだとする(そのような変数があれば欠測への対処はとても助かるのだけど)。また、今回欠測が生じるのは2回目の満足度だけとする。

Missing Completely At Random(MCAR)

MCARは、「完全にランダムな欠測」という言葉通り、全くもってランダムに起こる欠測メカニズムのことをいう。今考えている例で言えば、マッチングサービスの利用者には様々な人がいるが、2回目の満足度の欠測はある特定の人たちに偏ることなく起こっているという状況である。つまり、単なるアンケートの回答忘れだったり、運営側の配布ミスだったりを考えてもらえばよい。以下に、300人のうち30%(90人)の2回目の満足度の回答が完全にランダムに得られなかった場合の散布図を示す。
f:id:mstour:20201202072256p:plain
300人全員のデータと比較しても、分布の形状に大きな違いはなさそうに見える。実際、このような場合には欠測を無視したデータ解析を行ったとしても結果にバイアスが入ることはない。

Missing At Random(MAR)

MARは直訳すれば「ランダムな欠測」であるが、直感的なイメージとは少し違う概念である(直感的には先ほどのMCARのほうがランダムな欠測っぽいと思う)。MARとは、「欠測するかどうか(欠測する確率)が、観測された他の変数の値に影響されている」状態をいう。ここでの例で言うと、2回目の満足度の点数が欠測するかどうかが、1回目の満足度の点数に左右されていることを意味する。以下の図を見てみよう。
f:id:mstour:20201203202104p:plain
先に出てきた図と比べて、1回目の満足度(横軸)が低い領域のデータ点が無くなっていることにお気づきだろうか。このデータもMCARの場合と同様に元のデータから30%程度ほど2回目の満足度を人為的に欠測させたものだが、1回目の満足度が低いほど2回目の満足度が欠測する確率が高くなるように設定している。現実に当てはめて考えると、1回目のデートで相手に不満足だった男性は2回目のデートの誘いをしなかったから満足度にも回答してないということかもしれない・・・
このような時は、欠測を無視したデータ解析を行うとバイアスの入った結果になる恐れが強い。だが幸い、欠測メカニズムがMARと考えられるような場合には、欠測する確率に影響を与えるような変数を考慮した解析を行うことで問題を回避することができることが知られている。

Missing Not At Random(MNAR)

上記のMCARでもMARでもない場合、つまり観測されている情報だけでは欠測するかどうかを説明できない状況(欠測する値そのものが、欠測するかどうかに影響を与える)のことをMNARと呼んでいる。ここでの例で考えると、2回目のデートに満足しなかった人(もしアンケートに答えていたならば、満足度の点数が低かったであろう人)ほどアンケートに回答しない(欠測する)可能性が高いのであれば、2回目の満足度の欠測メカニズムはMNARであると考えられる。今度は以下の図を見てみよう。
f:id:mstour:20201204195648p:plain
これは、元々の300人のデータに対して、2回目の満足度が50以下の場合のみ90%の確率で欠測となるように加工したものである。よって、2回目の満足度が高かった人のデータばかりが残っている。少し極端な例だが、MCARやMARの場合との違いがわかるかと思う。このようなデータを表面的にしか見ないで「当マッチングサービスを通して2回ほどデートを重ねた男性ユーザーにはとても高いご満足をいただいています」などと言う前に、いったん立ち止まって考えて見たほうがいいかもしれない。2回目で満足しなかったユーザーは、アンケートに答える気が失せて何も言わず去っていったのかもしれないのだ。
f:id:mstour:20201204203113j:plain

まとめ

簡単な例を用いて、統計学的な欠測のメカニズムの分類を紹介した。理論的にきちんと勉強しようとするとなかなか大変なのだが、数学的定義を大まかにでも知っておくと、例えばMARを想定できる時に妥当な解析方法の1つとしてよく知られている混合効果モデルがなぜ妥当なのかという根拠もきちんと理解できる(私が完璧に理解できている訳ではないです)。
ともあれ、欠測のメカニズムを無視してモノを言おうとするとちょっと困ったことになりかねないことを、上の例でなんとなく理解していただけると何よりである。
今回の参考文献は以下の通り。
[1] 高井啓二・星野崇宏・野間久史(2016), 欠測データの統計科学, 岩波書店.