一、ROC曲線、AUC、Precision、Recall以及F-measure
二分類問題的預(yù)測結(jié)果可能正確,也可能不正確。結(jié)果正確存在兩種可能:原本對的預(yù)測為對,原本錯的預(yù)測為錯;結(jié)果錯誤也存在兩種可能:原本對的預(yù)測為錯,原本錯的預(yù)測為對,如Fig 1左側(cè)所示。其中Positives代表預(yù)測是對的,Negatives代表預(yù)測是錯的,True代表原本為對,F(xiàn)alse代表原本為錯。如何評價兩個二分類模型的好壞呢?二分類模型的理想狀態(tài)是什么呢?
首先回答第二個問題,理想的二分類模型能將原本是對的預(yù)測為對,原本是錯的預(yù)測為錯。一般情況下,我們很難收集到完備的“原本是對的,原本是錯的”數(shù)據(jù)集,也就是說,通常情況下我們獲得是完備的“原本是對的,原本是錯的”數(shù)據(jù)集的一個子集。因此,評價二分類模型的優(yōu)劣就是在該子集上進(jìn)行的。我們希望在該子集上對二分類模型的評價是無偏的,也就是說,在概率上保證在該子集上對二分類模型的評價與在完備集上的評價一致。
針對第一個問題,其實(shí)很簡單,數(shù)數(shù)就行了。數(shù)數(shù)原本是對的預(yù)測為對的個數(shù),原本是錯的預(yù)測為錯的個數(shù),原本是對的預(yù)測為錯的比例,原本是錯的預(yù)測為對的比例(評價二分類問題的四個基本元素,后續(xù)評價指標(biāo)都是在此基礎(chǔ)上做出的)。評價一個模型的好壞用四個參數(shù)是不是有點(diǎn)不太直觀哦,要是只有一個評價指標(biāo),如果一個模型的這指標(biāo)比別的模型大,那這個模型就比別的模型好(或者反過來,一個模型的這指標(biāo)比別的模型小,那這個模型比別的模型好),該多好哦!哈哈!
precision的含義是:預(yù)測為對的當(dāng)中,原本為對的比例(越大越好,1為理想狀態(tài))
recall的含義是:原本為對的當(dāng)中,預(yù)測為對的比例(越大越好,1為理想狀態(tài))
F-measure的含義是:用precision和recall兩個指標(biāo)不直觀(任性),索性把他們合并為一個,這就是F-measure(越大越好,1為理想狀態(tài),此時precision為1,recall為1)
accuracy的含義是:預(yù)測對的(包括原本是對預(yù)測為對,原本是錯的預(yù)測為錯兩種情形)占整個的比例(越大越好,1為理想狀態(tài))
fp rate的含義是:原本是錯的預(yù)測為對的比例(越小越好,0為理想狀態(tài))
tp rate的含義是:原本是對的預(yù)測為對的比例(越大越好,1為理想狀態(tài))