集成學習(ensemble learning)可以說是現(xiàn)在非常火爆的機器學習方法了。它本身不是一個單獨的機器學習算法,而是通過構(gòu)建并結(jié)合多個機器學習器來完成學習任務。也就是我們常說的“博采眾長”。集成學習可以用于分類問題集成,回歸問題集成,特征選取集成,異常點檢測集成等等,可以說所有的機器學習領域都可以看到集成學習的身影。本文就對集成學習的原理做一個總結(jié)。
1. 集成學習概述
從下圖,我們可以對集成學習的思想做一個概括。對于訓練集數(shù)據(jù),我們通過訓練若干個個體學習器,通過一定的結(jié)合策略,就可以最終形成一個強學習器,以達到博采眾長的目的。
也就是說,集成學習有兩個主要的問題需要解決,第一是如何得到若干個個體學習器,第二是如何選擇一種結(jié)合策略,將這些個體學習器集合成一個強學習器。
2. 集成學習之個體學習器
上一節(jié)我們講到,集成學習的第一個問題就是如何得到若干個個體學習器。這里我們有兩種選擇。
第一種就是所有的個體學習器都是一個種類的,或者說是同質(zhì)的。比如都是決策樹個體學習器,或者都是神經(jīng)網(wǎng)絡個體學習器。第二種是所有的個體學習器不全是一個種類的,或者說是異質(zhì)的。比如我們有一個分類問題,對訓練集采用支持向量機個體學習器,邏輯回歸個體學習器和樸素貝葉斯個體學習器來學習,再通過某種結(jié)合策略來確定最終的分類強學習器。
目前來說,同質(zhì)個體學習器的應用是最廣泛的,一般我們常說的集成學習的方法都是指的同質(zhì)個體學習器。而同質(zhì)個體學習器使用最多的模型是CART決策樹和神經(jīng)網(wǎng)絡。同質(zhì)個體學習器按照個體學習器之間是否存在依賴關(guān)系可以分為兩