2008/06/18

False Dismissal vs False Alarm

在IR(Information retrieve)領域中常常可看到False DismissalFalse Alarm這兩個詞。
我懷疑它們是從統計學上抄過來的用語...XD

我的理解是這樣,
假設我們有一個會偵測小偷入侵的防盜警鈴,
最佳的狀況下,只要剛好有小偷入侵,警鈴被會嗡嗡作響。
然而世界上總沒有完美,警鈴剛好也是....XD
有時候有小偷入侵,它卻不響; (有答案,卻沒找著)
有時候沒小偷入侵(可能是地震或貓狗打架),它卻響了; (找到了,卻不是答案)
上述第一種狀況就叫False Dismissal
第二種狀況就叫False Alarm

在統計學中假設檢定的篇章,有著名的型一誤差(Type 1 error)型二誤差(Type 2 error)
Type 1 error(又稱α error): 虛無假設H0為真,結論卻拒絕虛無假設H0
Type 2 error(又稱β error): 虛無假設H0為假,結論卻接受*虛無假設H0
* 我的統計老師說,統計人比較謙虛,所以用不拒絕,而不用接受, 但是為舉例方便,這裡還是用接受, 而且我也不是統計人~~ XD

若我們把H0 類比為 沒小偷入侵
結論拒絕H0 類比為 響鈴(因為它以為小偷入侵)
結論接受H0 類比為 不響鈴(因為它以為小偷沒入侵)

此時我們可以發現
Type 1 error = 沒小偷入侵,響鈴 
Type 2 error = 小偷入侵, 不響鈴

所以
Type 1 error  是不是很像False Alarm 呀~
Type 2 error  是不是很像False Dismissal 呀~


寫到一半,本來直覺想把Type 1 error rate(α)Type 2 error rate(β) 也與RecallPrecision扯上關係.
(但查證後,這直覺是錯的~ 卻讓我意外找到下面的關聯.. XD)

wiki上查了一下Recall和Precision的定義,看到下表時

correct result / classification
 E1   E2 
obtained
result / classification
E1 tp
(true positive)
fp
(false positive)
E2 fn
(false negative)
tn
(true negative)


才猛然想到沈錳坤教授在Data Mining課堂上提到RecallPrecision時,
也是用差不多形式的表來教的,因為RecallPrecision的公式如下:








當時看到這表格時,在課堂上還忍不住舉手問老師這是不是統計量檢定的α和β,不過大家都沒反應...XD
今天果然在Wiki上看到下面字樣..
false positives and false negatives (see also Type I and type II errors)
於是再用google search一下keyword: false positives type error,結果一堆pages啊~~ 果然我在課堂上的直覺是對的..
(只是隔了一學期才驗證,實在是很不用功~~ orz)

疑..
那麼整理一下,它們之間的關係應該如下:
False Alarm = Type 1 error = False Positives (找到的,卻不是答案)
False Dismissal = Type 2 error = False Negatives (有答案,卻沒找到)


但是左邊的等號還沒找到證據..

記得在統計上α + β =1 , 所以Type 1 errorType 2 error是trade off,
在上IR時,記得PrecisionRecall也是trade off,
直覺上,左邊的等號應該也是成立地(加上我前面舉的例子)..

所以用google search一下keyword: false dismissal false alarm type error, 結果又不出所料!!!
左邊的等號的確成立~~
所以下面的關係是正確地~~ 只是不同領域,用的詞彙不同~~
False Alarm = Type 1 error(α error) = False Positives (找到的,卻不是答案)
False Dismissal = Type 2 error(β error) = False Negatives (有答案,卻沒找到)


最後我們再看一下RecallPrecisionFalse DismissalFalse Alarm的關係.
回顧Recall和Precision的公式:





我們會發現RecallPrecision唯一有差異的地方是在分母的右因子,前者是False Negatives;後者則是False Positives。
也就是
Recall 與 False Negatives(= False Dismissal) 成負相關;
Precision 與 False Positives (= False Alarm) 成負相關;

所以
Recall-oriented的search,就會希望 no False Dismissal.
Precision-oriented的search, 就會希望 no False Alarm.

No comments:

Post a Comment