2値データの解析:(1)カイ2乗検定

今回から、何回かに分けたシリーズを作ってみたいと思います。
このシリーズでは2値データの解析と題して、基本的に用いられる統計手法の紹介をしていきます。 第1回目は一般に「カイ2乗検定」とよばれることの多い統計的検定の話をします。カイ2乗統計量とよばれるものは山ほどあるのであまり正確な言い方ではないですが・・・単にカイ2乗検定というと、以下で述べるような2*2分割表の2群比較で使われるものを指して言われる場合が多いのではないでしょうか。

状況設定

さて、今回は実験の参加対象(臨床試験でいえば患者さん、動物実験だと例えばラット、農事試験だと作物、などなど)が処置を受けるグループ(処置群)とそうでないグループ(対照群)のどちらに振り分けられるかがランダムに決められていて、結果は有効・無効の2種類で判定されているものとします。結果は以下のような表でまとめられます。このような表は分割表とよばれます。各セルの文字がそれぞれに該当する人数(以降、臨床研究を想定して人数とします)を示します。

度数 有効(Y=1) 無効(Y=0)
処置群(Z=1) a b m
対照群(Z=0) c d n
s t N

いまは処置群、対照群それぞれに割り当てられる人数をあらかじめ計画している状況を考えているため、 m, nは固定された数値になります。さらに、各データは独立であると考えると(ランダム化を行っていると考えると自然な想定です)、処置群での有効となる人数 a、対照群での有効となる人数 cはそれぞれ二項分布という確率モデルで表現することができます。二項分布とは、例えば有効となる確率(母集団での真の確率)が pであるとき、 m人のうち有効となる人数がしたがう確率分布として用いられます。
いま処置群の有効確率を p_1、対照群の有効確率を p_0とすると、有効となる人数 a, cはそれぞれ二項分布 B(m, p_1), B(n, p_0)にしたがう、という形でまとめられます。
このように統計学的な枠組みで状況を整理すると、処置群と対照群とで有効性に差があるかどうかを判断するには、それぞれの有効確率 p_1, p_0が異なるといえるかどうかを示せばよいということになります。統計的な検定仮説は以下のようになります。

 \displaystyle
H_0 : p_1 = p_0, \\
H_1 : p_1 \neq p_0.

統計的検定の方法:正規分布近似と独立性のカイ二乗検定

このように処置群と対照群とに対応関係のない場合(例えば1人にはいずれか一方の治療法しか割り当てられないような場合)の検定について、正規分布近似に基づく検定と、「独立性のカイ二乗検定」(Pearsonのカイ二乗検定ということも多い)とよばれる検定方法の2つのアプローチがありますが、両者は(両側検定を行う場合には)同じ結果となります。そのため、特に区別せず両方を合わせてカイ二乗検定と解釈されることが多いような気がします。なお、以降では独立性のカイ二乗検定を単に「カイ二乗検定」と書くことにします。 正規分布近似は、状況設定で述べたように、それぞれの群で有効となる人数が二項分布で記述できることから導かれます。まず、各群の有効確率 p_1, p_0はそれぞれ、有効人数の割合

 \displaystyle
\hat{p}_1 = \frac{a}{m}, \hat{p}_0 = \frac{c}{n}

で推定できます。この \hat{p}_1 \hat{p}_0との差が統計的に意味のある差かどうか、が検定での問いになります。
次に、この割合の差の「帰無仮説のもとでの」期待値と分散を求めます。帰無仮説 p_1 = p_0なので、二項分布の性質から以下が成り立ちます。

 \displaystyle
E[\hat{p}_1 - \hat{p}_0 | H_0] = 0,
 \displaystyle
V[\hat{p}_1 - \hat{p}_0 | H_0] = (\frac{1}{m} + \frac{1}{n})p(1-p).

ここで、分散に含まれる p p_1 = p_0 = pを満たす未知のパラメータで、具体的な数値は得られているデータから推定する必要があります。これは全サンプルにおける有効人数の割合として

 \displaystyle
\hat{p} = \frac{s}{N}

で推定できます。そうすると、割合の差の推定量

 \hat{p}_1 - \hat{p}_0
の標準誤差は(分散推定量平方根なので)

 \displaystyle
\sqrt{(\frac{1}{m} + \frac{1}{n})\hat{p}(1-\hat{p})}

となります。 有効割合は一人一人が有効がどうかを示す指標(有効の場合1、無効の場合0の値をとる)の平均値に相当しますので、中心極限定理により m, nが十分大きい場合には有効割合、さらにその差も正規分布に近づきます。したがって平均を引き、標準誤差で割るという標準化を行った後は標準正規分布に従うと考えることができます。先ほど求めた標準誤差と平均が0となることを用いると、

 \displaystyle
U = \frac{\hat{p}_1 - \hat{p}_0}{\sqrt{(\frac{1}{m} + \frac{1}{n})\hat{p}(1-\hat{p})}}

は近似的に標準正規分布に従うこととなり、この統計量 Uが確率的にありえない値をとるかどうかで帰無仮説を否定できるかを判断します。

一方、カイ二乗検定とは、分割表の各セルどうしが統計的に独立かどうかを評価するものです。いま考えている例では、各セルが独立ということは、処置群と対照群とで有効のセルに該当する確率が同じことを意味します(処置群と対照群それぞれの合計人数は決まっているものと考えているので、その制約の範囲内での独立性を評価していることになります)。
カイ二乗検定は、独立という仮説のもとで期待される各セルの度数と、実際得られたセルの度数との差を用いて仮説の妥当性を評価します。参考文献に従い結果だけ示すと

 \displaystyle
\chi^2 = \frac{N(ad-bc)^2}{mnst}

が各セルの度数が大きくなると自由度1のカイ二乗分布に近くことを用いて検定を行います。この統計量が大きくなればなるほど、独立という仮説と現実との乖離が大きい、つまり独立であることの妥当性は低いと考えられます(ただし、サンプルサイズが大きい場合にも統計量の値が大きくなるため、差が小さくても独立という仮説を否定する可能性が高くなることに注意しましょう。これは統計的検定に共通する問題です)。

さて、これまでに述べた正規分布近似とカイ二乗検定ですが、統計量の間に

 \displaystyle
U^2 = \chi^2

という関係が成り立つため、両者は同等な検定であると考えることができます。ただし、正規分布近似の場合には両側検定・片側検定のいずれも行うことができますが、カイ二乗検定については検定仮説として「独立か、独立でないか」という設定しかできないため、つねに両側検定となります。この点は、統計量 Uが処置群と対照群のどちらが有効割合が高いかによって正負いずれの値もとりうるのに対し、統計量 {\chi}^{2}は「仮説と現実とのずれ」を2乗して合計するという性質上、処置群と対照群のどちらの有効割合が高くても正の値しかとりえない、ということからも理解できます。

まとめ

今回は対応関係のない2*2分割表データの解析で最も基本的な方法であるカイ二乗検定を紹介しました。カイ二乗検定と一般によばれている方法は、「正規近似検定」と「独立性のカイ二乗検定」のどちらを指しているか明確でない場合もありますが、両側検定において両者の結果は一致するため、実用上はそこまで気にする必要はないように思います。

参考文献

岩崎学(2015), 統計的因果推論, 朝倉書店.