最尤推定量の検定 - 統計学入門一歩先へ

はじめに

線形回帰分析をはじめとする一般化線形モデルにおいて、説明変数が関心ある結果（統計モデルにおける、 $y$ で表される側。以降では「目的変数」とする）に統計的に有意な影響を与えているかを判断する目安として、いくつかの検定方式がある。今回は比較的目にする機会の多い「Wald検定」「スコア検定」「尤度比検定」について簡単にまとめる。

Wald検定

おそらく最も頻繁に利用されている検定方式だと思われる。統計ソフトの結果出力においても、大抵はWald検定のp値やWald統計量に基づく信頼区間が記載されている。結果だけを先に述べると、パラメータ $\beta$ の最尤推定量 $b$ が平均 $\beta$ 、分散 $F^{-1}$ の正規分布に漸近的に従うことを利用した推論方法がWald検定である（ $F$ は $\beta$ に関するFisher情報量）。なお、目的変数の分布として正規分布を仮定する場合には、最尤推定量も漸近的ではなく正確に正規分布に従う。
Fisher情報量について補足する。まず、対数尤度のパラメータ $\beta$ に関する導関数、つまりパラメータの値が少し動いた（推定値が変わった）ときの対数尤度の変化の程度

$\displaystyle U = \frac{d l(\beta; y)}{d \beta}$

をスコア統計量という。さらにスコア統計量 $U$ の分散

$\displaystyle F = var(U) = E(U^2)$

を $\beta$ についてのFisher情報量という。 $U$ の期待値は $0$ であることから、Fisher情報量はスコア統計量の二乗の期待値に等しい。
Fisher情報量はスコア統計量の導関数、つまり対数尤度の2次導関数の期待値にマイナスをつけたものと等しいことも知られており、

$\displaystyle F = -E(U^{'})$

対数尤度の曲線の鋭さを表しているものと解釈できる。したがって、Fisher情報量が大きいような鋭い対数尤度をもつ統計モデルでは最尤推定量の分散が小さくなり、推定精度が高くなると言えるだろう。

スコア検定

これは前述のスコア統計量の分布を利用した方法である。目的変数 $Y_i(i = 1, ..., n)$ が互いに独立な場合、各 $Y_i$ に対応する対数尤度の導関数をとったスコア $U_i$ も互いに独立となり、それらの和である「全データに関するスコア」 $U = \sum U_i$ は中心極限定理により漸近的に正規分布に従う。スコア統計量の平均は $0$ 、分散はFisher情報量 $F$ であったので、

$\displaystyle \frac{U}{\sqrt{F}}$

は標準正規分布に漸近的に従う。後はこの分布を利用して統計的な検定や推測を行えばよい。
なお、二項分布の信頼区間の構成方法として正規近似よりも良い性質をもつことが知られている「Wilsonの信頼区間」はスコア統計量と関係が深い。いま目的変数 $Y$ は試行数 $n$ 、成功確率 $\pi$ の二項分布に従うとすると、スコア統計量は

$\displaystyle U = \frac{Y - n \pi}{\pi (1 - \pi)}$

である。またFisher情報量は

$\displaystyle F = var(U) = \frac{n}{\pi (1 - \pi)}$

となる。よって、

$\displaystyle \frac{U}{\sqrt{F}} = \frac{Y - n \pi}{\sqrt{n \pi(1 - \pi})} = \frac{\hat{p} - \pi}{\sqrt{\frac{\pi(1 - \pi)}{n}}}$

は漸近的に標準正規分布に従う。この統計量が棄却限界を超える確率が有意水準 $\alpha$ に等しいとおき、その等式を満たすような $\pi$ の範囲、つまり有意水準 $\alpha$ で棄却されないような $\pi$ の範囲がWilsonの信頼区間である。

尤度比検定

これは、関心のある説明変数に対応するパラメータを含むモデルと含まないモデルの尤度を比較することで、当該パラメータが統計的に意味があるかどうかを評価するという方法である。まずは参考文献[1]に従い、考えられる最大のパラメータ数をもつ「フルモデル」と候補のモデルとを比較する方法を確認する。
いまフルモデルのパラメータ数は $m$ 、候補のモデルのパラメータ数は $p$ とする。フルモデルの $m$ 次元パラメータベクトルを $\beta_{max}$ 、その最尤推定量ベクトルを $b_{max}$ 、候補のモデルの $p$ 次元パラメータベクトルを $\beta$ 、その最尤推定量ベクトルを $b$ とする。尤度を $L$ とすると、それぞれのモデルの尤度の最大値の比

$\displaystyle \lambda = \frac{L(b_{max}; y)}{L(b; y)}$

が大きいほど、候補のモデルはフルモデルに比べてデータへの当てはまりがよくないと考えることができる。この対数を2倍した統計量

$\displaystyle D = 2 \log \lambda = 2 [ \ell(b_{max}; y) - \ell(b; y) ]$

は逸脱度と呼ばれる。ただし $\ell()$ は対数尤度を表す。 $v = 2 [ \ell(\beta_{max}; y) - \ell(\beta; y) ]$ とおくと、逸脱度は近似的に自由度 $m-p$ 、非心度 $v$ のカイ二乗分布に従う：

$\displaystyle D \sim \chi^2(m-p, v)$

続いて、候補のモデルと、候補のモデルから関心あるパラメータを除いたモデルとの比較を行う。ここでは関心あるパラメータは1つとし、候補のモデルのパラメータベクトルを $p$ 次元の $\beta_1$ 、より単純なモデルのパラメータベクトルを $p-1$ 次元の $\beta_0$ とする。それぞれの逸脱度を前述の定義に従い $D_1$ 、 $D_0$ とする。これら2つのモデルの比較には「逸脱度の差」を用いることができ、

$\displaystyle \Delta D = D_0 - D_1 = 2 [ \ell(b_1; y) - \ell(b_0; y) ]$

は近似的に自由度 $1$ のカイ二乗分布に従う。 $\Delta D$ の値が大きくなるほど、関心あるパラメータを含むモデルの方がデータをうまく表現できていると言えるため、カイ二乗分布を用いた検定で $\Delta D$ を棄却できるほどであればそのパラメータは統計的に意味があると理解することができる。