Bagging與隨機森林算法原理小結(jié)

發(fā)布時間：2016年12月16日作者：文章轉(zhuǎn)自網(wǎng)絡，版權(quán)歸原作者所有，反饋可立刻刪除

　在集成學習原理小結(jié)中，我們講到了集成學習有兩個流派，一個是boosting派系，它的特點是各個弱學習器之間有依賴關(guān)系。另一種是bagging流派，它的特點是各個弱學習器之間沒有依賴關(guān)系，可以并行擬合。本文就對集成學習中Bagging與隨機森林算法做一個總結(jié)。

　　　　隨機森林是集成學習中可以和梯度提升樹GBDT分庭抗禮的算法，尤其是它可以很方便的并行訓練，在如今大數(shù)據(jù)大樣本的的時代很有誘惑力。

1. bagging的原理

　　　　在集成學習原理小結(jié)中，我們給Bagging畫了下面一張原理圖。

seo優(yōu)化培訓,網(wǎng)絡推廣培訓,網(wǎng)絡營銷培訓,SEM培訓,網(wǎng)絡優(yōu)化,在線營銷培訓

　　　　從上圖可以看出，Bagging的弱學習器之間的確沒有boosting那樣的聯(lián)系。它的特點在“隨機采樣”。那么什么是隨機采樣？

　　　　隨機采樣(bootsrap)就是從我們的訓練集里面采集固定個數(shù)的樣本，但是每采集一個樣本后，都將樣本放回。也就是說，之前采集到的樣本在放回后有可能繼續(xù)被采集到。對于我們的Bagging算法，一般會隨機采集和訓練集樣本數(shù)m一樣個數(shù)的樣本。這樣得到的采樣集和訓練集樣本的個數(shù)相同，但是樣本內(nèi)容不同。如果我們對有m個樣本訓練集做T次的隨機采樣，，則由于隨機性，T個采樣集各不相同。

　　　　注意到這和GBDT的子采樣是不同的。GBDT的子采樣是無放回采樣，而Bagging的子采樣是放回采樣。

分類導航

Bagging與隨機森林算法原理小結(jié)

1. bagging的原理

網(wǎng)友評論

更多精彩分享