支持向量機(jī)原理(二) 線性支持向量機(jī)的軟間隔最大化模型
支持向量機(jī)原理(三)線性不可分支持向量機(jī)與核函數(shù)(待填坑)
支持向量機(jī)原理(四)SMO算法原理(待填坑)
支持向量機(jī)原理(五)線性支持回歸(待填坑)
在支持向量機(jī)原理(一) 線性支持向量機(jī)中,我們對(duì)線性可分SVM的模型和損失函數(shù)優(yōu)化做了總結(jié)。最后我們提到了有時(shí)候不能線性可分的原因是線性數(shù)據(jù)集里面多了少量的異常點(diǎn),由于這些異常點(diǎn)導(dǎo)致了數(shù)據(jù)集不能線性可分,本篇就對(duì)線性支持向量機(jī)如何處理這些異常點(diǎn)的原理方法做一個(gè)總結(jié)。
1. 線性分類SVM面臨的問(wèn)題
有時(shí)候本來(lái)數(shù)據(jù)的確是可分的,也就是說(shuō)可以用 線性分類SVM的學(xué)習(xí)方法來(lái)求解,但是卻因?yàn)榛烊肓水惓|c(diǎn),導(dǎo)致不能線性可分,比如下圖,本來(lái)數(shù)據(jù)是可以按下面的實(shí)線來(lái)做超平面分離的,可以由于一個(gè)橙色和一個(gè)藍(lán)色的異常點(diǎn)導(dǎo)致我們沒(méi)法按照上一篇線性支持向量機(jī)中的方法來(lái)分類。
另外一種情況沒(méi)有這么糟糕到不可分,但是會(huì)嚴(yán)重影響我們模型的泛化預(yù)測(cè)效果,比如下圖,本來(lái)如果我們不考慮異常點(diǎn),SVM的超平面應(yīng)該是下圖中的紅色線所示,但是由于有一個(gè)藍(lán)色的異常點(diǎn),導(dǎo)致我們學(xué)習(xí)到的超平面是下圖中的粗虛線所示,這樣會(huì)嚴(yán)重影響我們的分類模型預(yù)測(cè)效果。