多重比較の前に分散分析をやらないといけないの？

はじめに

また今回もちょっとした覚え書き程度の内容ですが・・・時々ご相談を受けたりするテーマなので、少し整理しておきたいと思います。

連続データに関して、ある要因の水準が異なる複数グループ間の比較を行うようなとき*1、第一種の過誤確率*2をコントロールするために多重比較法を用いることがあります。

このような場面では「まず分散分析をやって、統計的有意になった場合のみ続けて個々のグループ間の比較を（多重比較法を用いて）行う、という手順を踏まないといけない」という説があります。
ですが、この主張は必ずしも正しくなく、むしろ適切でない結果を招くことがあります。
実際には分散分析をやらないといけない場合とそうでない場合とがあり、これは用いる多重比較法によって異なってきます。

今回は多重比較法のうち基本的といわれる4つを取り上げ、どれを使用する際に分散分析が必要なのか・不要なのかを整理してみます。
取り上げる多重比較法は以下の通りです。

Fisher（フィッシャー）の制約付きLSD法*3
Scheffe（シェフェ）の方法*4
Dunnett（ダネット）の方法
Tukey（テューキー）の方法

なお今回の話題は、1要因の効果を調べる場合（一元配置計画）において問題となることが多いので、その場合に話を限定することにします。

分散分析をやらないといけない場合

今回取り上げる4つの方法のうち、最初に分散分析を行う必要があるのは「Fisherの制約付きLSD法」と「Scheffeの方法」です。
それぞれの方法の概要と、なぜ分散分析をやらないといけないのかを簡単に説明します。

Fisherの制約付きLSD法(Fisher's Protected Least Significant Difference)

この方法は多群の比較において
(1)まず、すべての群の平均が等しいかどうかについて分散分析を行い、
(2)統計的有意だった場合（「すべての群の平均が等しい」という仮説が棄却された場合）のみ、続けて任意の2群の間の比較*5を行う
という手順をとります。

f:id:mstour:20210928194734j:plain

基本的な多重比較法の多くは、第一種の過誤確率が増大することを防ぐために検定の棄却限界値を調整（有意になりにくくなる）します。
一方、Fisherの制約付きLSD法では、「3群の場合に限り」そのような調整を行わずとも第一種の過誤確率が事前に決めた水準に抑えられます。ただし上記手順の(1)にて、分散分析が有意になるという条件を満たしていなければなりません*6。
このような方法なので、最初に分散分析を行わなければなりません。

Scheffeの方法

この方法は、「対比(Contrast)を使って表現することのできる帰無仮説のすべて」を検定したとしても第一種の過誤確率が所定の値を超えないようにする方法です。

対比について少し説明します。
対比とは各群の母平均どうしの足し算・引き算のいろいろなパターンのことで、数学的には次のように表します。

$\displaystyle \sum_{i=1}^{a} c_i \mu_i \hspace{10pt} ただし, \sum_{i=1}^{a} c_i = 0$

ここで $\mu_i$ は群iの母平均、aは群の数を表しています。
$c_i$ は分析者が値を指定できる定数で、値を変えることでさまざまな対比を作ることができます。
例えば $c_1 = 1, c_2 = -1, c_3 = c_4 = \cdots = c_a = 0$ とすれば $\mu_1 - \mu_2$ という対比ができます。

また、対比を使って表現できる帰無仮説とは、次のように対比を0に等しいとした形のものです：

$\displaystyle H_0 : \sum_{i=1}^{a} c_i \mu_i = 0$

先の例では、 $\mu_1 - \mu_2 = 0$ 、つまり $\mu_1 = \mu_2$ という帰無仮説を表せます。

ここからわかるように、2群間の比較における帰無仮説 $\mu_i = \mu_j$ はすべて対比で表すことができます。
また、 $\frac{\mu_1 + \mu_2}{2} = \frac{\mu_3 + \mu_4}{2}$ のような帰無仮説も対比を使って表せます。
このように、対比を使って表現できる帰無仮説は、単純な2群間の比較だけでなく無数に存在します。
これらのありとあらゆる比較を行っても第一種の過誤確率をコントロールするよう設計されているため、他の多くの多重比較法と比べて検出力が小さい（有意になりにくい）という特徴があります。

f:id:mstour:20210928194802j:plain

Scheffeの方法でも、データから計算される検定統計量が所定の棄却限界値を超えるかどうかを判定します。
この検定統計量は検定する帰無仮説によって値が変わってくる*7のですが、検定統計量の最大値（一番有意になりやすい帰無仮説の検定に使われます）が分散分析で用いるF統計量に等しいことが知られています。
したがって、分散分析で有意でないならば、Scheffeの方法で有意になるような比較（帰無仮説）は存在しないことになります。
最初に分散分析を行って有意であることを確かめておかなければ、Scheffeの方法による以降の手順には意味がなくなると言えるでしょう*8。

分散分析をやらなくてもいい（やってはいけない）場合

事前に分散分析を行わなくてもいい、むしろ行うべきではないのは「Dunnettの方法」と「Tukeyの方法」です。
行うべきでない理由は両者に共通していて、それは「分散分析で有意ではないのに、Dunnettの方法（Tukeyの方法）で有意になる」、また「分散分析で有意なのに、Dunnettの方法（Tukeyの方法）で有意にならない」ということがあり得るからです。つまり、分散分析の結果と2群間比較の結果とが矛盾してしまいます。

以下で述べるように、Dunnettの方法・Tukeyの方法はいずれも分散分析とは無関係に行うことができます。

Dunnettの方法

「ある1つの対照群とその他の各群」との2群間比較を行う場合に用いることのできる方法です。
つまり、対照群を群1、群の数をaとすると、行う比較は「群1と群2」、「群1と群3」、・・・、「群1と群a」の合計a-1個です。
（以前の記事「基本的な多重比較法」でもご紹介しました。）
f:id:mstour:20210928193706j:plain

具体的には、以下の検定統計量を使用します。

$\displaystyle t_{1j} = \frac{\overline{x}_1 - \overline{x}_j}{\sqrt{V_E \left( \frac{1}{n_1} + \frac{1}{n_j} \right)}}$

ただし $j = 2, \cdots, a$ で、 $\overline{x}_1$ は群1の標本平均、 $\overline{x}_j$ は群jの標本平均、 $n_1, n_j$ はそれぞれ群1と群jのサンプルサイズ、 $V_E$ はすべての群のデータから計算した標本分散（分散分析では誤差分散と呼ばれます）です*9。
統計量 $t_{1j}$ がDunnettの方法専用の棄却限界値よりも大きければ、群1と群jの間には有意な差があると判定します*10。

Dunnettの方法による多重比較を行った結果として、例えば「群1と群2には差がある」、「群1と群3には差がない」、・・・、「群1と群aには差がある」という計a-1個の結論が得られます。

このように、手順としては2つの群の間の差を評価するだけであり、分散分析のF統計量を用いた群全体の評価は全く行っていません。

Tukeyの方法

Tukeyの方法は、「すべての2群の組み合わせの比較」を行うことを前提とした方法です。つまり、群の数がa個の場合 $\frac{a(a-1)}{2}$ 個の比較を行うことになります。
対照群との比較だけを扱うDunnettの方法よりもかなり多くの比較を行いますが、第一種の過誤確率は所定の値に抑えられるように設計されています。ただしその分検出力は小さく（有意になりにくく）なります。
f:id:mstour:20210928193726j:plain

Dunnettの方法と同様に、検定統計量は以下のものを用います。違いは、任意の群iと群jの比較が可能であるという点です。

$\displaystyle t_{ij} = \frac{\overline{x}_i - \overline{x}_j}{\sqrt{V_E \left( \frac{1}{n_i} + \frac{1}{n_j} \right)}}$

棄却限界値についてもTukeyの方法のためのものが用意されています。
Dunnettの方法と同じ理由で、Tukeyの方法でも事前に分散分析を行うべきではないと言えるでしょう。

おわりに

今回は基本的な多重比較法のうちの4つを取り上げ、それぞれ分散分析を事前に行わないといけないのかどうかを確認しました。
多重比較法はこの他にも非常に多くの種類があるため、この4つの方法だけを根拠に一般論を述べることは難しいですが、基本的な考え方として「用いる多重比較法が分散分析の実施を前提としている場合に限り、最初に分散分析を行う」という方針でよいのではないかと思います。

ただ、複数の比較を行う際にいつも多重比較法を使わなければいけないかというと、必ずしもそうではありません。
多重比較法は確かに第一種の過誤確率をコントロールできる方法ですが、多くの場合検出力を多少犠牲にしてしまうため、本当は意味のある差があるのにその差を見逃してしまうリスクが高まります。
分析の目的に応じて、多重比較法を使うべきかどうか検討するのがよいのではないでしょうか。

参考文献

[1] 永田靖. (1998). 多重比較法の実際. 応用統計学, 27(2), 93-108.
[2] 永田靖, 吉田道弘. (1997). 統計的多重比較法の基礎. サイエンティスト社.

*1:例えば3種類の薬剤の効果を比較する、とか、5種類の肥料の効果を比較する、といった状況を考えてください。

*2:ここでいう第一種の過誤確率とは、1つ1つの検定についてのものではなくて、行おうとしているすべての検定で1回でも間違って有意と判断してしまう確率を意味しています。この確率をFamily Wise Error Rate(FWER)といいます。さらにFWERは真実の状態（例えば、群1と群2の母平均に差はないが、群3、群4とは互いに差がある、など）によって値が変わりますが、真実の状態は当然僕たちにはわかりません。そのため、多重比較法ではFWERのうち考えうる最大のものを所定の値（例えば5%）に抑えることを目標とします。

*3:ただしこの方法で多重性の問題に対応できるのは、3群比較の場合に限ります。4群以上になると第一種の過誤確率をコントロールできないことが知られています。

*4:本当は最後の「e」の上にアクセントの点がつきますが、表示できないのでこの記載で通します。

*5:「対比較」と言うことがあります。

*6:これが、多重比較の前に分散分析を行うという手順のルーツではないかという説があります。

*7:対比の設定に使用する定数 $c_i$ が検定統計量に含まれています。

*8:しかしながら、Fisherの制約付きLSD法のように多重比較法としての妥当性が崩れるわけではないので、分散分析を「行わなければならない」かと言うと微妙な気がします。

*9:通常の2標本t検定との違いは分散 $V_E$ だけです。

*10:具体的にどのような棄却限界値を用いるかについては、かなり込み入った話になるので今回は立ち入っていません。もちろん知っておくに越したことはありませんが、実用上そこまで困ることはないかと思います。