診断法の評価:感度と特異度

今回は、検査の診断性能の評価として多く用いられる「感度」、「特異度」の概念と、異なる診断法におけるそれらの比較について簡単に説明します。

検査では、(1)疾患がある人をきちんと「疾患あり」と判別できること、また(2)疾患がない人は「疾患なし」と判別できることが望ましいことは直感的に理解できるかと思います。(1)を達成できる度合いは感度、(2)を達成できる度合いは特異度としてそれぞれ定量的に評価することが可能です。
もう少し詳しく見てみましょう。いま、 n人がある検査を受けることになり、そのうち n_1人は疾患あり、 n_0人は疾患なしだとします。(疾患は、例えば何らかの感染症とします)この n人が検査を受けた結果、 s人が陽性、 r人が陰性だったとします。さらに、疾患ありの n_1人のうち s_1人が陽性、 r_1人が陰性で、疾患なしの n_0人のうち s_0人が陽性、 r_0人が陰性であったとします。このとき、感度 S_eは「疾患ありの人のうち、陽性と判定できた人の割合」なので


Se = \frac{s_1}{n_1} = \frac{s_1}{s_1 + r_1},

特異度 S_pは「疾患なしの人のうち、陰性と判定できた人の割合」なので


Sp = \frac{r_0}{n_0} = \frac{r_0}{s_0 + r_0},

と計算できます。

検査陽性 検査陰性
疾患あり  s_1  r_1
疾患なし  s_0  r_0

当然、感度も特異度も高いのが望ましいのですが、あまりにも片方を高くすることにこだわりすぎると診断法としての意義を失うことにもなりかねません。例えば、どんな人に対しても陽性と判定するような診断法があるとしましょう。そうすると、疾患のある人全員が陽性と判定されるので、この診断法の感度は100%となるのですが、疾患がない人も全員陽性になるので、特異度は0%となってしまいます。実際には、両方を高いレベルで達成できるような診断法が必要となることになります。これはROC曲線とよばれる方法で視覚的に表現することができますが、今回は深入りしません。

次に、2つの診断法の性能を比較することを考えてみましょう。ここでは感度について、統計的な検定により評価したいものとします。 2つの診断法の感度に差があるかどうかの検定のため、次の帰無仮説、対立仮説を設定します。


H_0 : Se_1 = Se_2, \\
H_1 : Se_1 \neq Se_2.

なお、 Se_1は診断法1の感度、 Se_2は診断法2の感度です。
用いるべき検定の手法は、データが「対応のある」「対応のない」場合で異なります。「対応のある」とは、両方の診断法を同じ人に対して行っているため、例えばiさんの診断法1のデータと診断法2のデータは対応関係にあるということを意味します。「対応のない」は、そのようにデータがとられていないため、診断法1のデータと診断法2のデータとには一切の対応関係がない場合をいいます。
対応のない場合に一般的に用いられるのは、カイ二乗検定です。一方、対応のある場合にはMcNemar検定が用いられます。いずれも割合の比較に用いられる基本的な方法ですが、ちょっと気をつけないといけないのは、感度の推定には研究に参加したすべての人のデータを使用するわけではないという点です。
感度は「疾患ありの人のうち、陽性と判定できた人の割合」と定義されるため、研究に参加した人のうち、疾患ありの人のデータだけが比較に使用されることになります。逆に特異度を比較するためには疾患なしの人のデータが必要です。この点が例えば2つの治療法の奏功割合を比較するような場合とは異なります。
したがって、研究全体のサンプルサイズを設計するには、感度を比較する場合には「疾患あり」の人が必要数確保できる、また特異度を比較するならば「疾患なし」の人が必要数確保できるように、参加する人のうちどのくらいの割合が「疾患あり」なのかを考慮に入れる必要があります。この話題は今回は触れませんので、参考文献をご参照ください。

参考文献

Li and Fine, On sample size for sensitivity and specificity in prospective diagnostic accuracy studies, Statist. Med. 2004; 23:2537–2550