在多元線性回歸中,并不是所用特征越多越好;選擇少量、合適的特征既可以避免過擬合,也可以增加模型解釋度。這里介紹3種方法來選擇特征:最優(yōu)子集選擇向前或向后逐步選擇、交叉驗(yàn)證法。

最優(yōu)子集選擇

這種方法的思想很簡(jiǎn)單,就是把所有的特征組合都嘗試建模一遍,然后選擇最優(yōu)的模型。基本如下:

  • 對(duì)于p個(gè)特征,從k=1到k=p——

  • 從p個(gè)特征中任意選擇k個(gè),建立C(p,k)個(gè)模型,選擇最優(yōu)的一個(gè)(RSS最小或R2最大);

  • 從p個(gè)最優(yōu)模型中選擇一個(gè)最優(yōu)模型(交叉驗(yàn)證誤差、Cp、BIC、Adjusted R2等指標(biāo))。

這種方法優(yōu)勢(shì)很明顯:所有各種可能的情況都嘗遍了,最后選擇的一定是最優(yōu);劣勢(shì)一樣很明顯:當(dāng)p越大時(shí),計(jì)算量也會(huì)越發(fā)明顯地增大(2^p)。因此這種方法只適用于p較小的情況。

以下為R中