2値データの解析：(3)割合の信頼区間（1標本）

はじめに

今回は、関心ある事象の発生する割合（例えば疾患の発生割合とか、例えば内閣支持率とか）の信頼区間について話してみたい。1標本割合の信頼区間でよく使われる（よく使われるのは僕の身近なところでの話かもしれないが）、Clopper-Pearsonの信頼区間とWilsonの信頼区間を紹介する。なお2標本の場合には、グループ間の割合の違いはリスク差、リスク比、オッズ比のように様々な形で要約され、それぞれに信頼区間の構成方法がある。2標本の場合についてはまた別記事を書く予定である。

検定と信頼区間についての前置き

信頼区間と検定とは表裏一体の関係にあるというのを聞いたことがあるかもしれない。検定はパラメータに関するある特定の仮説を否定できるかどうかを問題にしているが、信頼区間はそれとは反対に「検定で否定できないようなパラメータの値の集まり」である。
疾患の有無とか、内閣支持・不支持のような2値データは通常「二項分布」でモデル化し、母集団全体における真の疾患発生確率とか内閣支持率を二項確率パラメータ $\pi$ で表現する。 $\pi$ は得られたサンプル内での発生者の割合・支持者の割合によって推定できるが、その推定値が事前に決めた仮説（例えば、母集団での内閣支持率は40%である）と矛盾しているか否かを評価するのが検定である。（以降は、内閣支持率の例で考える。）
例えば今回の調査で支持者の割合が85%だったとすると、母集団での内閣支持率が40%と仮定したときに今回の結果を上回るような事態はどのくらいの確率で起こるのかを計算して、支持率40%という当初の仮説とどのくらい矛盾しているかを評価する。矛盾の程度、つまり当初の仮説を否定するかどうかは、これも前もって決めておいた確率の閾値を下回るかどうかで判断する。その閾値は、40%より高くても低くても意味があるとする場合（両側検定）は0.05、40%より高い場合だけに意味がある場合（片側検定）は0.025とすることが多い。この閾値（有意水準という）は $\alpha$ という記号を使う。そうすると、もし仮に40%という仮説が正しかった場合にも（両側検定の場合）確率0.05で間違って仮説を否定する可能性がある。とはいえ有限のサンプルでものを言う以上この確率を0にはできないので、0.05くらいならまあいいでしょう、と考える。
2値データの1標本（1標本とは、1つの母集団に関する推測を行うこと）の検定には、二項分布の確率を正確に計算するものと、正規分布による近似を使うものとがある。
信頼区間はこの考えを裏返したようなもので、今回の調査の結果では否定ができないような仮説（パラメータの値）の範囲を計算する。この計算には検定の有意水準 $\alpha$ を用いることになり、この水準によって区間の幅が変わってくる。詳しくはこの後の具体的な信頼区間の話で。

Clopper-Pearsonの信頼区間

前置きが長くなってしまった。
Clopper-Pearsonの信頼区間は、二項分布の正確な計算による検定をベースにした方法である。まず、今回の調査によって対象者 $n$ 人中 $x$ 人が内閣支持だったとする。パラメータ $n, \pi$ の二項分布の確率関数を $p(x|n, \pi)$ で表すと、仮説 $\pi = 0.4$ が正しいとしたときに $n$ 人中 $x$ 人以上の支持者が出る確率は

$\displaystyle \sum_{a = x}^{n} p(a|n, 0.4) = {}_n C _a (0.4)^a (0.6)^{n-a}$

となり、支持率が40%より高いことを主張するための片側検定では、例えばこの値が0.025より小さくなれば「40%より低い」という仮説を否定することとなる。いわゆるp値と呼ばれるものである。
さて、Clopper-Pearsonの信頼区間を作るには、この問題を逆にして考える必要がある。わかりやすくするために、今回の調査を $n = 1000$ 人に実施した結果、支持者数は $x = 600$ 人だったとする。信頼区間は検定で否定できないようなパラメータの値の集まりなので、今回はこの結果を得たときに否定できないような $\pi$ の値を探せばよい。検定で否定できないのは、上の例ではp値が0.025以上になってしまった場合である。母集団での支持率 $\pi$ の値が大きくなればなるほど、調査での支持者数 $x$ に大きい値が出ることは珍しいことではなくなってくるので、p値は大きくなってくる。それがちょうど0.025になるような $\pi$ が「統計的に否定できないような $\pi$ の値」の最小値となる。数式で書くと

$\displaystyle \sum_{a = 600}^{1000} p(a|1000, \pi) = {}_{1000} C _a (\pi)^a (1-\pi)^{1000-a} = 0.025$

という等式を満たすような $\pi$ が、求めたいClopper-Pearson信頼区間の下限値である。
f:id:mstour:20201224203305j:plain

上限値も、全く同じような考え方で、反対方向の検定で否定できない $\pi$ の値を探しにいけばよい。この計算は反復計算を必要とするが、通常の統計ソフトには実装されているはずである。
この方法は、二項分布を用いた正確検定とセットで行うことが多い。

Wilsonの信頼区間

Wilsonの信頼区間は、Clopper-Pearsonとは異なり、正規分布近似による検定を逆向きに変換したものである。正規分布近似の検定は、二項分布の確率パラメータに関する帰無仮説 $H_0 : \pi = \pi_0$ が正しいと仮定したときに、推定値（標本における割合） $p = \frac{x}{n}$ からその期待値を引いて標準偏差で割った $Z$ 統計量

$\displaystyle Z = \frac{p-\pi_0}{\sqrt{\frac{\pi_0(1-\pi_0)}{n}}}$

が漸近的に正規分布に従うことを利用した検定である。この検定で否定ができないような $\pi$ の範囲の上限と下限を計算すると、以下の式となる。

$\displaystyle ( \hat{\pi}_L, \hat{\pi}_U ) = \frac{ \left[ \frac{ Z^2_{1-\frac{\alpha}{2}} }{ 2n } + p \right] \pm \sqrt{ \frac{ Z^2_{1-\frac{\alpha}{2}} }{ 4n } \left[ \frac{ Z^2_{1-\frac{\alpha}{2}} }{ n } + 4p(1-p) \right] } } { \frac{ Z^2_{1-\frac{\alpha}{2}} }{ n } + 1}$

正規分布近似で検定するときは、あわせてこの方法で信頼区間を出すことがよくある。

おわりに

1標本の割合の信頼区間でよく使われる「Clopper-Pearsonの信頼区間」と「Wilsonの信頼区間」を紹介した。実は分散の一致推定量 $\frac{p(1-p)}{n}$ を使った単純な信頼区間も作れるが、区間が $(0, 1)$ の範囲を超えてしまうことがある。そのため、範囲が $(0, 1)$ に収まる上記のような方法が使用されるのが一般的である。
今回は以下を参考にした。
[1] John M. Lachin(2020). "医薬データのための統計解析", 共立出版.