一元配置乱塊法

はじめに

以前、1要因実験データの解析方法である一元配置分散分析を紹介したが、説明を単純にするために局所管理(ブロック化)を行わない完全無作為化実験の場合を考えた。
mstour.hatenablog.com
今回は、ブロック化を考慮した実験である乱塊法(Randomized block design)の場合の分散分析の手順を説明する。農事試験の分野ではブロックはいくつかの試験区をひとまとめにしたもので、各ブロックの中で処理(品種、施肥量など)がランダムに割り当てられる。
f:id:mstour:20201028201956j:plain
臨床試験でのブロック化の応用例の1つはクロスオーバー試験と呼ばれるものであり、そのような試験では被験者をブロックとして、一人の被験者が異なる治療をランダムな順番で受けることとなる(この場合、個々の観測値は、各被験者のそれぞれの治療に対する反応を示す検査値などとなる)。
f:id:mstour:20201028202011j:plain

一元配置乱塊法における分散分析

一元配置乱塊法の実験によって得られたデータを、次の形式で表現する。
f:id:mstour:20201019205249p:plain
ここで処理は A_1, \cdots, A_a、ブロックは R_1, \cdots, R_rである。つまり、合計 a種類の処理の効果を比較するのがこの実験の目的で、 r個のブロックに分割してそれぞれのブロックの中でランダム化を行っている。上記の表は、例えば各ブロックが農場の小区画、処理が小麦の品種、比較したい特性が収量だとすると、区画 R_jに栽培した品種 A_iの収量は y_{ij}、であることを意味する。

乱塊法を行わない一元配置分散分析の場合、データ全体のばらつきを
(1)処理の違いによるもの
(2)実験誤差によるもの
の2つに分解し、処理によるばらつきが誤差によるばらつきを大きく超えているか否かを考えた。
一元配置乱塊法の場合は、ブロックを導入することによって、実験誤差のうちブロックの違いによって説明できる部分を抜き出すことができる。つまり、データ全体のばらつきは
(1)処理の違いによるもの
(2)ブロックの違いによるもの
(3)実験誤差によるもの
の3つに分解できる。

通常の分散分析と同様に、まずは各要因に関する平方和を計算する。
(1)各処理の、全体平均からの差を表す処理平方和は

 \displaystyle
S_A = \sum_{i=1}^{a} \sum_{j=1}^{r} (\overline{y}_{i.} - \overline{y}_{..})^2
(2)各ブロックの、全体平均からの差を表すブロック平方和は
 \displaystyle
S_R = \sum_{i=1}^{a} \sum_{j=1}^{r} (\overline{y}_{.j} - \overline{y}_{..})^2
(3)各データの全体平均からの差のうち、処理でもブロックでも説明されない部分である誤差平方和は
 \displaystyle
S_e = \sum_{i=1}^{a} \sum_{j=1}^{r} (y_{ij} - \overline{y}_{i.} - \overline{y}_{.j} + \overline{y}_{..})^2
と計算できる。これらの合計は、各データの全体平均からのずれを合計したものである総平方和
 \displaystyle
S_T = \sum_{i=1}^{a} \sum_{j=1}^{r} (y_{ij} - \overline{y}_{..})^2
に等しくなる(ただし、データに欠測がある場合にはこのことは成り立たない)。
平均平方は、各平方和を対応する自由度で割ったものである。なお、対応する自由度は
(1)処理の自由度:
 \displaystyle
\nu_A = a - 1
(2)ブロックの自由度:
 \displaystyle
\nu_R = r - 1
(3)誤差の自由度:
 \displaystyle
\nu_e = (a - 1)(r - 1)
であり、合計すると全体の自由度 ar - 1に等しくなる。
後述するが、処理の効果を評価するには、誤差の平均平方に対する処理の平均平方の比(F比)の大きさを見ることになる。同様に、誤差の平均平方に対するブロックの平均平方の比によってブロックの効果の有無を評価できる。
ここまでのことを、分散分析表にまとめると以下の通りとなる。
f:id:mstour:20201025203451p:plain

さて、今回の分散分析では、観測データを

 \displaystyle
y_{ij} = \mu + \alpha_i + \rho_j + e_{ij}
という形でモデル化していることになる。ただし、 \muは全体平均、 \alpha_i (i = 1, \cdots, a)は処理 A_iの効果、 \rho_j(j = 1, \cdots, r)はブロックの効果であり、実験誤差 e_{ij}は平均0、分散 \sigma^2正規分布に従うとしている。
この時、分散分析表にまとめた平均平方の期待値は、それぞれ
 \displaystyle
E \left[ V_A \right] = \sigma^2 + \frac{r}{a-1} \sum_{i=1}^{a} \alpha_i^2
 \displaystyle
E \left[ V_R \right] = \sigma^2 + \frac{a}{r-1} \sum_{j=1}^{r} \rho_j^2 \\
 \displaystyle
E \left[ V_e \right] = \sigma^2
となり、処理の平均平方の期待値には処理効果に関する項 \frac{r}{a-1} \sum_{i=1}^{a} \alpha_i^2が、ブロックの平均平方の期待値にはブロック効果に関する項 \frac{a}{r-1} \sum_{j=1}^{r} \rho_j^2がそれぞれ加わっているのがわかる。つまり、処理効果が完全にゼロであれば処理の平均平方は実験誤差とほぼ同じになる(ブロック効果も同様)ので、処理の平均平方(ブロックの平均平方)と誤差の平均平方との比を見ることによって、処理効果が完全にゼロでないか、そうでないかを判定することができる。この点は以前紹介した一元配置の場合と同様である。

前回の繰り返しになるが、処理効果の有無を判断するF検定を再度まとめる。
処理に何らかの効果があることを示すには、すべての処理の間に差がないことを否定できればよいので、否定したい帰無仮説として「処理効果はゼロ」:

 \displaystyle
H_{0(A)} : \alpha_1 = \cdots = \alpha_a = 0
を設定する。ここで
 \displaystyle
E \left[ V_A \right] = \sigma^2 + \frac{r}{a-1} \sum_{i=1}^{a} \alpha_i^2
なので、帰無仮説 H_{0(A)}が正しいと仮定した場合、
 \displaystyle
E \left[ V_A \right] = \sigma^2
である。一方
 \displaystyle
E \left[ V_e \right] = \sigma^2
であったので、帰無仮説が正しいとすると V_A V_eの比
 \displaystyle
F_A = \frac{V_A}{V_e}
は平均的に1に近くなる。逆に、 F_Aが大きい値をとるということは、どれかの \alpha_iが0でない値をとる、つまりどれかの処理は他の処理との違いがあるという可能性が高いことを示していると考えられる。
正式には、 F_A帰無仮説 H_{0(A)}のもとで自由度 \nu_A \nu_eのF分布に従うので、 F_Aがその分布では滅多に得られないような値(有意水準が5%であれば、上側5%以上の値)であれば、帰無仮説は間違っているだろうと考え、処理には何らかの効果があると判断する。ブロックの効果も同様のF検定を考えることができるが、ブロックの間に違いがあるかどうかが関心になることはあまりないのではないかと思う。
(なお、このF検定だけでは、どの処理が他の処理と統計的な違いがあるのかということは全く判定できず、分かるのは「少なくともどれか一つの処理は他の処理と違いがある」ということだけである。そういったことを知るためには、引き続いて処理どうしの直接の比較を行うことになるが、一般に「検定の多重性」と呼ばれる問題に対処する必要がある。またいずれ書いてみます。)

まとめ

今回は実験要因が1つの場合(一元配置実験)のうち、ブロックを導入した乱塊法の場合の分散分析の概要を紹介した。処理の効果に関するデータ解析方法は通常の一元配置の場合と同様であるが、各ブロックの中でランダム化を行い、例えば日当たりが良かったり肥沃な場所に特定の処理が偏ることを防ぐことによって、実験場所の違いによる影響を取り除くことができる。
なお医学研究の分野では、結果に影響を与える要因をコントロールするために層別ランダム化(例えば、男性・女性のようなカテゴリー別にランダム化を行う)といった方法がとられることが多く、被験者の集団を細かなブロックに分割するブロック化の応用例は前述のクロスオーバー試験の他にはあまり見られないと思う。

今回の参考文献は以下の通り。
[1]三輪哲久(2015), "実験計画法と分散分析", 朝倉書店.
[2]J.L.フライス(2004), "臨床試験のデザインと解析", アーム.
[3]浜田知久馬, 小野英樹(2000), "薬理学研究における生物統計学の役割一ランダム化と統計的評価一", 日薬理誌, 116;4-11.
(https://www.jstage.jst.go.jp/article/fpj1944/116/1/116_1_4/_pdf)