在機(jī)器學(xué)習(xí)中,一般都會按照下面幾個步驟:特征提取、數(shù)據(jù)預(yù)處理、特征選擇、模型訓(xùn)練、檢驗(yàn)優(yōu)化。那么特征的選擇就很關(guān)鍵了,一般模型最后效果的好壞往往都是跟特征的選擇有關(guān)系的,因?yàn)槟P捅旧淼膮?shù)并沒有太多優(yōu)化的點(diǎn),反而特征這邊有時(shí)候多加一個或者少加一個,最終的結(jié)果都會差別很大。

在SparkMLlib中為我們提供了幾種特征選擇的方法,分別是VectorSlicer、RFormulaChiSqSelector。

下面就介紹下這三個方法的使用,強(qiáng)烈推薦有時(shí)間的把參考的文獻(xiàn)都閱讀下,會有所收獲!

網(wǎng)友評論