単回帰分析(2)モデルの定式化と最小二乗法
はじめに
前回は単回帰分析の大まかなイメージを紹介した。今回は数学的にもう少し整理したいと思う。
最初に言葉でざっくりとまとめると、説明変数で目的変数を表現する単回帰分析とは、
- 目的変数は正規分布に従うと仮定し、
- その期待値を推定する
という方法である。なお、は正確にはによるの条件付き期待値であり、すでに観測されているの値によっての真の状態を推定することから「による条件付き」という形になる。よって、は確率的にばらつくことを前提としている一方、は固定した値と考える(もばらつきを持っていると想定する方法も当然ある)。
単回帰分析モデルの定式化
前回、単回帰分析は、データに上手く当てはまるような直線を引いていると説明した。つまり、によって説明されるの真の状態(期待値)は、の一次関数であると仮定している:
ところで、は正規分布に従うと仮定しているので、期待値の周りでばらつくと考えていることになる。そのばらつきの部分を「誤差項」といい、で表す。したがって、は期待値に誤差を加えてという構造になっている(と想定している。もちろんこの表現が必ずしも現実を上手く説明できるかは分からない)。この数式を単回帰分析モデルと言う(一般に、統計学的な方法によってデータの振る舞いを説明する時、そのような数式表現を統計モデルと言うことが多い)。さて、今得られているデータとして、との組が組あるものとする。単回帰モデルを今得られているすべてのデータに当てはめることを考えると、番目の組は以下のように表される。これで、あとはとをデータから推定すればよい。また、それぞれののばらつき(分散)も通常は分からないので、データから推測することになる。これらを推定するための方法として、最小二乗法(Least squares method)と最尤法(Maximum likelihood method)という方法が代表的である。今回は最小二乗法による推定を説明したいと思う。単回帰モデルの場合(正確に言えば、目的変数の分布が正規分布の場合)との推定結果は同じになる。
なお、各どうしは独立であることを仮定している。例えば別々の個人から得られたデータであれば通常は独立と考えても問題はないが、同じ個人から何度も測定したデータであればそういう訳にはいかない。この場合にはもっと込み入った方法が必要になる。
最小二乗法
では、最小二乗法によって未知の値をデータから推測する方法を述べる。
最小二乗法とは、まさに前回説明したイメージの通り、データとのズレを最小にするようにして最適な統計モデルを決定する方法である。
正確には、次のように実際のデータとモデルで推定される期待値との差である偏差(Deviation)を二乗したものの合計
はとそれぞれの二次関数になっているので、最小にするようなとは「微分して0とおく」という操作をすれば計算できる(傾きがゼロになる点が最小になる)。これを整理すると、正規方程式と呼ばれる連立方程式が得られる。まずの方から解いていこう。の最適解はとなる。ただしはそれぞれの標本平均である。これは、との標本共分散をの標本分散で割ったものに等しい。
この結果を得た上での最適解を求めるととなる。あとは、データからを算出することができる。
これらの最適解(推定量)は、期待値をとると(つまり、真の値は)に一致する。つまり、最小二乗法で計算すると、未知のは偏りなく推定ができることになる。このような推定量を不偏推定量という。
最後にばらつきのパラメータは、推定したを使って次のように推定できる。これも期待値がに一致する不偏推定量である。なお、最尤法でを推定する場合、の推定量は不偏ではないことが知られている。しかし、違いはなので、サンプル数が大きければそこまでの違いはない。