ケースコントロール研究とオッズ比

はじめに

今回は「観察研究」（研究を実施する側が、実験条件をコントロールする行為、例えば治療法をランダムに割り当てるなどを行わない研究方法。ある集団の追跡調査を行ったり、過去の病歴を調べたり）における代表的な研究方法の1つである「ケースコントロール研究」を紹介する。
ケースコントロール研究は「後ろ向き研究」と呼ばれる方法の一種で、結果の要約には「オッズ比」が用いられることが多い。オッズ比を簡単に説明しておくと、あるリスク因子を持っている場合（リスク因子に「曝露」している、という言い方がよくなされるが、馴染みのない方が多いと思われるのでこの言い方はしないことにする）に、ある疾患になる確率とならない確率の比

$\displaystyle Odds_E = \frac{P(D|E)}{P(\overline{D}|E)}$

のことをリスク因子ありの場合の「オッズ」という。ここで、 $D$ は疾患あり、 $\overline{D}$ は疾患なし、 $E$ はリスク因子あり（曝露Exposureの頭文字とした）という事象をそれぞれ表すものとする。リスク因子なしの場合のオッズも同様に定義でき

$\displaystyle Odds_{\overline{E}} = \frac{P(D|\overline{E})}{P(\overline{D}|\overline{E})}$

となる（ $\overline{E}$ はリスク因子なしを表す）。オッズ比とは、リスク因子がある場合とない場合とのオッズの比であり、リスク因子があることによって疾患を引き起こすリスクが何倍になるかの近似として解釈できる（この解釈が成り立つのは疾患の発症率が小さいような場合であるが、あまり気にせずに使われているものと思われる）。

$\displaystyle OR = \frac{Odds_E}{Odds_{\overline{E}}} = \frac{P(D|E) / P(\overline{D}|E)}{P(D|\overline{E}) / P(\overline{D}|\overline{E})}$

本来であれば、リスク因子がある集団とない集団とでの疾患発生の確率を直接計算すればよいのだが、後半で述べるようにケースコントロール研究のような後ろ向き研究ではそうすることはできないので、代わりにオッズ比が近似として用いられることになる。

ケースコントロール研究とは

医学・疫学研究において、あるリスク因子（例えば喫煙）がある疾患（例えば肺がん）の発生リスクをどの程度高めるかに関心があることが多い。このような関係性を調べようとすると、いくつかの選択肢がある。喫煙と肺がんの例で考えよう。
(1) ランダム化比較試験
喫煙するか否かをランダムに割り当てることができるならば、喫煙するグループと喫煙しないグループのその後の肺がんの発生状況を比較すれば、その他の要因の影響を取り除けるので喫煙の影響を完璧に示すことができるだろう。しかし、一方のグループに強制的に喫煙をさせるという実験は倫理的に許されるわけがない。
(2) コホート研究
研究の開始時点ですでに喫煙している人としていない人を集めてきて、それぞれのグループの経過観察を行う。この場合、ランダムに喫煙有無を割り当てているわけではないので、喫煙グループにはある特徴を持った人が集まりやすい（男性が多い、不健康な食生活の人が多い、など）。仮に肺がんの発症にこれらの特徴が影響しているのであれば統計的な方法でその影響を取り除く必要があるが、(1)のランダム化比較試験が行えない以上、これが次善の策といえるだろう。しかしながら、肺がんの発病率はそれほど高いわけではないので、研究の対象者に全く肺がんが発症しないかもしれず、そのような場合には有益な結論を得ることができない。また、研究対象者を長期間追跡するので、実施にはかなりのコストがかかるだろう。
(3) ケースコントロール研究
上記の(1)も(2)も実施困難な場合に有効なのが、ケースコントロール研究である。これは研究開始時点で肺がんの人（ケースとよぶ）とそうでない人（コントロールとよぶ）を集めてきて、それぞれの人が過去に喫煙していたかどうかを調べる方法である。過去にさかのぼって調査を行うため、このような方法は「後ろ向き研究」とよばれる。一方(1)や(2)は「前向き研究」とよばれるものの1つである。
f:id:mstour:20200925202331j:plain

ケースコントロール研究にて、疾患あり（ $D$ ）の人を $n_1$ 人、疾患なし（ $\overline{D}$ ）の人を $n_2$ 人の合計 $N$ 人を調べるものとしよう。研究対象者を選んだあとで、ある人はリスク因子あり（ $E$ ）、ある人はリスク因子なし（ $\overline{E}$ ）であることが判明する。調査した結果は、以下のような表にまとめられる。

	疾患あり $(D)$	疾患なし $({\overline{D}})$	合計
リスク因子あり $(E)$	$a$	$b$	$m_1$
リスク因子なし $({\overline{E}})$	$c$	$d$	$m_2$
合計	$n_1$	$n_2$	$N$

リスク因子の疾患リスクを推定するには、単純にリスク因子のある集団の疾患割合 $\frac{a}{m_1}$ とリスク因子のない集団の疾患割合 $\frac{c}{m_2}$ を比較すればいいと思われるかもしれないが、ここでは「疾患ありの人を $n_1$ 人、疾患なしの人を $n_2$ 人」というサンプリングをしているので、母集団の推定として意味があるのは $n_1$ 人中何人、 $n_2$ 人中何人という情報だけである。したがって、疾患ありの集団におけるリスク因子ありの割合 $\frac{a}{n_1}$ 、疾患なしの集団におけるリスク因子ありの割合 $\frac{b}{n_2}$ に基づいて推測を行う必要がある。これらの情報から「後ろ向きのオッズ比」を計算することができるが、後述するようにこれは「前向きのオッズ比」に一致するため、解釈可能な結果が得られる。
（このあたり言葉でうまく説明するのが難しいが、ケースコントロール研究では $n_1$ と $n_2$ は集めるサンプル数なので固定された値であるが、リスク因子あり $m_1$ 、リスク因子なし $m_2$ はサンプルを集めるたびに変動する値である。そうすると例えば $\frac{a}{m_1}$ は分子も分母も変動する値となるので、同じような研究を行うたびに0から1の間でてんでバラバラな数値になり得ることが何となく想像できると思う。もちろん、 $\frac{a}{m_1}$ に対応する母集団のパラメータは存在しない。）

オッズ比の推定

さて、 $\frac{a}{n_1}$ と $\frac{b}{n_2}$ を用いて計算した後ろ向きのオッズ比である「疾患なしの集団に対する、疾患ありの集団のリスク因子ありに関するオッズ比」は、前向きのオッズ比「リスク因子なしの集団に対する、リスク因子ありの集団の疾患に関するオッズ比」に一致する。この前向きのオッズ比が、リスク因子が疾患のリスクを何倍にするかという疑問への回答となる（正確には近似）。
一致することを以下で簡単に確認しよう。
「はじめに」で述べたように、前向きのオッズ比は、条件付き確率を用いて

$\displaystyle OR = \frac{P(D|E) / P(\overline{D}|E)}{P(D|\overline{E}) / P(\overline{D}|\overline{E})}$

と表される。ここで条件付き確率の定義より、例えば

$\displaystyle P(D|E) = \frac{P(D, E)}{P(E)} = \frac{P(E|D)P(D)}{P(E)}$

と表せるので、前向きのオッズ比は次のように変形できる。

$\displaystyle OR = \frac{P(E|D)P(D)P(E) / P(E|\overline{D})P(\overline{D})P(E)}{P(\overline{E}|D)P(D)P(\overline{E}) / P(\overline{E}|\overline{D})P(\overline{D})P(\overline{E})} = \frac{P(E|D) / P(\overline{E}|D)}{P(E|\overline{D}) / P(\overline{E}|\overline{D})}$

よって、結果（疾患のあり、なし）に基づいてサンプルを抽出するという一見すると奇妙な方法であるケースコントロール研究においても、計算されるオッズ比は解釈可能な指標である。また、オッズ比に関連する統計手法（例えばロジスティック回帰）も用いることができる。

まとめ

今回はケースコントロール研究の考え方と、そこで使われる結果の要約指標であるオッズ比について説明した。ケースコントロール研究では「相対リスク」（疾患発生のリスクが何倍になるか）を直接計算することはできないが、オッズ比の計算は可能であり、まれな疾患であればオッズ比によって相対リスクを近似することができる。なお、結果に影響を与える重要な変数が同じ人どうしをペアにする「マッチング」を行ったりする場合もあるが、ここでは述べなかった。

参考文献

[1] John M. Lachin(2020), "医薬データのための統計解析", 共立出版.