基本的な多重比較法

はじめに

例えば、5種類の異なる薬剤の効果を調べたい状況を考えてみよう。どの薬剤どうしの間に効果の違いがあるかを知るためには、様々なペア間の比較を試したくなる。このような時に統計学的な検定を繰り返し行えば行うほど、どこかのタイミングで本当は違いがないのに誤って違いがあると判断してしまう確率(以下では、「トータルの過誤確率」と呼ぶことにする)が高くなっていくことが知られている。これは「多重性(Multiplicity)の問題」と呼ばれている。
f:id:mstour:20201215202037j:plain
このような問題を回避して、トータルの過誤確率を最初に決めた有意水準(「差がないのに間違って差があると判断してしまう」確率の許容レベル。例えば5%に設定することが多く、その場合20回に1回しか間違って差があるとする誤りは起こらないことになる)を超えないようにコントロールする方法を「多重比較法(Multiple comparison procedures)」という。
今回は、多重比較法のうち古くから知られており広く認知されている手法を3つ紹介したい。これらはおそらく大抵の統計ソフトに実装されているので、必要な場合には気軽に使用できるかと思う。現代ではもっと洗練された多重比較法が色々と開発されているが、それはまたいずれ勉強して紹介できればいいな・・・
なお、以下では「比較」とは統計学的な検定による評価のことを指すこととする。

Bonferroni(ボンフェローニ)法

この方法は、あらかじめ設定した「全体の」有意水準 \alphaとする。例えば \alpha = 0.05)を、比較する回数で割った値を「個々の比較の」有意水準とするものである。この方法は、次のような確率論の性質

 \displaystyle
P(A または B または \cdots または K) \leq P(A) + P(B) + \cdots + P(K)
に基づいている。いまK回の比較を行うものとして、1回目の比較で誤って有意差ありと判定することを F_1、2回目を F_2、以下同様の記号で表すと、
 \displaystyle
P(F_1 または F_2 または \cdots または F_K) \\
= P(少なくとも1回誤って有意差ありと判定する) \\
\leq P(F_1) + P(F_2) + \cdots + P(F_K)
が成り立つ。したがって、個々の比較( F_1から F_Kまで)の有意水準 \frac{\alpha}{K}にしておけば、
 \displaystyle
P(少なくとも1回誤って有意差ありと判定する) \\
\leq P(F_1) + P(F_2) + \cdots + P(F_K) \\
= \frac{\alpha}{K} + \frac{\alpha}{K} + \cdots + \frac{\alpha}{K} = \alpha
となるので、どこかで1回でも誤って有意差があると言ってしまう確率(トータルの過誤確率)は、最初に設定した値の \alphaを超えないようにできる。
f:id:mstour:20201215202103j:plain
Bonferroni法はこのようにとても単純なものなので、統計ソフトで特別な計算が必要な訳でもなく、例えば全体の有意水準 \alpha = 0.05で5回の比較をするような場合には、一つ一つの比較のp値が0.01未満になった時に有意差ありと判定する、と決めさえすればよい。

Dunnett(ダネット)法

あるグループを基準にして、その他のグループとの比較を行いたいような場合というのがある。例えば、無治療のグループや偽薬(プラセボ)を飲んだグループと、実薬であるA・B・C薬とをそれぞれ比較したい(この時、合計で3回の比較を行う)というケースがありうる。このような場合の多重比較法として古くから知られているのがDunnett法である。基準のグループとその他のグループを比較するという場合に限り、トータルの過誤確率が最初に設定した \alphaを超えないことが保証される。つまり、例えばA薬とB薬との比較を行いたいような時には使うべきではない。
f:id:mstour:20201215202123j:plain
なお、数学的な詳細はここでは述べないが、Dunnett法の1つ1つの比較は通常のt検定の棄却限界値を少し厳しくしたようなものと理解しておけば十分である。

Tukey(テューキー)法

Dunnett法のように基準とするグループを考えずに、すべての組み合わせで比較をしたいという場合もある。先ほどの例で言うと、無治療のグループと各実薬のグループとの比較だけでなく、A薬とB薬との比較も行うようなケースである(合計で {}_4 C _2 = 6回の比較を行う)。このような場合の多重比較法としてTukey法と呼ばれる方法がある。
f:id:mstour:20201215202138j:plain
Tukey法の1つ1つの比較も、通常のt検定と同様の形式(平均の差を標準誤差で割ったt統計量が、ある棄却限界値よりも大きいかどうかを確かめる)で行われるが、棄却限界値はDunnett法で用いられるものとは異なる。

どれを使うべきか?

Dunnett法は基準となるグループとその他のグループとの多重比較のために考案された方法なので、使う場面はそのような場合に限るべきである。Tukey法にはそのような制限はないが、数多くの比較(基本的に、考えられるすべての組み合わせ)を行ってもトータルの過誤確率を \alpha以下にするために考案されており、保守的な(有意になりにくい)傾向にある。そのため、Dunnett法が適用できる場面ではTukey法よりもDunnett法の方が優れていると言われている。Bonferroni法は、比較の数が少ない場合にはTukey法よりも検出力が高く好ましいとされており、また使用場面が限定されないという点ではDunnett法よりも使いやすい方法である(ただし比較の数が多くなると、Bonferroni法の方が両者よりも不利になる)。この辺りはFleissの教科書(参考文献[2])に詳しい。

まとめ

比較的よく知られた多重比較法であるBonferroni法、Dunnett法、Tukey法について簡単に紹介した。細かいことよりもイメージ重視でざっくりとした説明になってしまい恐縮である。
今回の参考文献は以下の通り。
[1] 三輪哲久(2015), "実験計画法と分散分析", 朝倉書店.
[2] J.L.Fleiss(2004), "臨床試験のデザインと解析", アーム.