因為capstone project的需要,我上網看了一下有關Kappa statistics的討論
這才發現,Kappa看似簡單,但是背後的意義卻蠻複雜的

記得第二學期的Epidemiology課程,老師的slide也是用傳統的評斷方法
例如Kappa>0.8就是非常好的agreement,0.6-0.8算good,0.4-0.6算fair
但最近review過以後才發現,其實Kappa很難用以上的方法來評量,因為不同的study,underlying的prevalence不一樣時,
可以達到的"最大"Kappa值也會不一樣,很多時候(例如我的study)可能出現的最高Kappa值也不過0.6而已

或許你會有疑問,"不會吧?只要兩個人評估的結果一模一樣,Kappa就等於一啊",怎麼可能說"最高"的Kappa=0.6?
這要從Kappa的實際應用說起。當我們使用Kappa的時候,最常見的狀況就是我們缺乏Gold standard(因為各種可能的原因)
如果我們有Gold standard可以做比較的話,直接算sensitivity跟specificity就好了,不需要用到Kappa
所以大部份的狀況是:我們使用一個alloy gold standard跟我們要採用的test來相比較
希望我們的test可以跟alloy gold standard有很好的agreement

現在假設alloy gold standard的sensitivity跟specificity都是0.95,而我們的test也很棒,sen=spe=0.95
這時候Kappa會等於一嗎?很可惜,因為這兩個test都是independent,所以有agreement的部份也不會相同,因此Kappa還是不會等於一
更複雜的是,實際Kappa的值不但受到sen, spe的影響,還受到underlying prevalence的影響
當underlying prevalence很高或很低的時候,因為agreement due to chance增加,Kappa會趨近於0

我利用Stata的kapprevi做了一個圖來說明:
這是假設有兩個observer,一個人的Sen=0.98, Spe=0.80,一個人的Sen=0.95, Spe=0.85
可以觀察到,假設兩個人都是independent,那麼Kappa值會受到prevalence的影響而有不同的結果
以我自己的study來說,underlying prevalce估計約在0.10-0.20之間,所以maximum Kappa怎樣也不可能超過0.5
所以我的0.2似乎也不那麼難看了

kappa_98_80_95_85

底下這個圖是假設兩個observer中,有一個人是Gold standard
另外一個的Sen=Spe=0.90
當Prevalence=0.5時,會有最大的Kappa=0.8
這大概是一般所謂Kappa>0.8是excellent agreement的由來
所以有人主張study的結果不要只報kappa值是多少
而要把observed agreement跟expected agreement都報出來
p value甚至比Kappa更重要,因為一個有意義的p value表示這兩個人不是胡亂猜測的,而是有意義地agreement

換句話說,Kappa作為定性測試比定量測試更有意義
這,大概就是我目前所能了解的程度了。

9090
創作者介紹
創作者 fasion 的頭像
fasion

鎚子家的露營筆記

fasion 發表在 痞客邦 留言(0) 人氣()