在集成學習原理小結中,我們講到了集成學習按照個體學習器之間是否存在依賴關系可以分為兩類,第一個是個體學習器之間存在強依賴關系,另一類是個體學習器之間不存在強依賴關系。前者的代表算法就是是boosting系列算法。在boosting系列算法中, Adaboost是最著名的算法之一。Adaboost既可以用作分類,也可以用作回歸。本文就對Adaboost算法做一個總結。
1. 回顧boosting算法的基本原理
在集成學習原理小結中,我們已經(jīng)講到了boosting算法系列的基本思想,如下圖:
從圖中可以看出,Boosting算法的工作機制是首先從訓練集用初始權重訓練出一個弱學習器1,根據(jù)弱學習的學習誤差率表現(xiàn)來更新訓練樣本的權重,使得之前弱學習器1學習誤差率高的訓練樣本點的權重變高,使得這些誤差率高的點在后面的弱學習器2中得到更多的重視。然后基于調整權重后的訓練集來訓練弱學習器2.,如此重復進行,直到弱學習器數(shù)達到事先指定的數(shù)目T,最終將這T個弱學習器通過集合策略進行整合,得到最終的強學習器?! ?/p>
不過有幾個具體的問題Boosting算法沒有詳細說明。
1)如何計算學習誤差率e?
2) 如何得到弱學習器權重系數(shù)
延伸閱讀
學習是年輕人改變自己的最好方式