最尤推定量の検定
はじめに
線形回帰分析をはじめとする一般化線形モデルにおいて、説明変数が関心ある結果(統計モデルにおける、で表される側。以降では「目的変数」とする)に統計的に有意な影響を与えているかを判断する目安として、いくつかの検定方式がある。今回は比較的目にする機会の多い「Wald検定」「スコア検定」「尤度比検定」について簡単にまとめる。
Wald検定
おそらく最も頻繁に利用されている検定方式だと思われる。統計ソフトの結果出力においても、大抵はWald検定のp値やWald統計量に基づく信頼区間が記載されている。結果だけを先に述べると、パラメータの最尤推定量が平均、分散の正規分布に漸近的に従うことを利用した推論方法がWald検定である(はに関するFisher情報量)。なお、目的変数の分布として正規分布を仮定する場合には、最尤推定量も漸近的ではなく正確に正規分布に従う。
Fisher情報量について補足する。まず、対数尤度のパラメータに関する導関数、つまりパラメータの値が少し動いた(推定値が変わった)ときの対数尤度の変化の程度
Fisher情報量はスコア統計量の導関数、つまり対数尤度の2次導関数の期待値にマイナスをつけたものと等しいことも知られており、対数尤度の曲線の鋭さを表しているものと解釈できる。したがって、Fisher情報量が大きいような鋭い対数尤度をもつ統計モデルでは最尤推定量の分散が小さくなり、推定精度が高くなると言えるだろう。
スコア検定
これは前述のスコア統計量の分布を利用した方法である。目的変数が互いに独立な場合、各に対応する対数尤度の導関数をとったスコアも互いに独立となり、それらの和である「全データに関するスコア」は中心極限定理により漸近的に正規分布に従う。スコア統計量の平均は、分散はFisher情報量であったので、
は標準正規分布に漸近的に従う。後はこの分布を利用して統計的な検定や推測を行えばよい。
なお、二項分布の信頼区間の構成方法として正規近似よりも良い性質をもつことが知られている「Wilsonの信頼区間」はスコア統計量と関係が深い。いま目的変数は試行数、成功確率の二項分布に従うとすると、スコア統計量はである。またFisher情報量はとなる。よって、
尤度比検定
これは、関心のある説明変数に対応するパラメータを含むモデルと含まないモデルの尤度を比較することで、当該パラメータが統計的に意味があるかどうかを評価するという方法である。まずは参考文献[1]に従い、考えられる最大のパラメータ数をもつ「フルモデル」と候補のモデルとを比較する方法を確認する。
いまフルモデルのパラメータ数は、候補のモデルのパラメータ数はとする。フルモデルの次元パラメータベクトルを、その最尤推定量ベクトルを、候補のモデルの次元パラメータベクトルを、その最尤推定量ベクトルをとする。尤度をとすると、それぞれのモデルの尤度の最大値の比