支持向量機原理(三)線性不可分支持向量機與核函數(shù)(待填坑)
支持向量機原理(四)SMO算法原理(待填坑)
支持向量機原理(五)線性支持回歸(待填坑)
在支持向量機原理(一) 線性支持向量機中,我們對線性可分SVM的模型和損失函數(shù)優(yōu)化做了總結。最后我們提到了有時候不能線性可分的原因是線性數(shù)據(jù)集里面多了少量的異常點,由于這些異常點導致了數(shù)據(jù)集不能線性可分,本篇就對線性支持向量機如何處理這些異常點的原理方法做一個總結。
1. 線性分類SVM面臨的問題
有時候本來數(shù)據(jù)的確是可分的,也就是說可以用 線性分類SVM的學習方法來求解,但是卻因為混入了異常點,導致不能線性可分,比如下圖,本來數(shù)據(jù)是可以按下面的實線來做超平面分離的,可以由于一個橙色和一個藍色的異常點導致我們沒法按照上一篇線性支持向量機中的方法來分類。
另外一種情況沒有這么糟糕到不可分,但是會嚴重影響我們模型的泛化預測效果,比如下圖,本來如果我們不考慮異常點,SVM的超平面應該是下圖中的紅色線所示,但是由于有一個藍色的異常點,導致我們學習到的超平面是下圖中的粗虛線所示,這樣會嚴重影響我們的分類模型預測效果。