內(nèi)容:
1.算法概述
1.1 決策樹(DT)是一種基本的分類和回歸方法。在分類問題中它可以認為是if-then規(guī)則的集合,也可以認為是定義在特征空間與類空間上的條件概率分布,學(xué)習(xí)思想包括ID3,C4.5,CART(摘自《統(tǒng)計學(xué)習(xí)方法》)。
1.2 Bagging :基于數(shù)據(jù)隨機重抽樣的集成方法(Ensemble methods),也稱為自舉匯聚法(boostrap aggregating),整個數(shù)據(jù)集是通過在原始數(shù)據(jù)集中隨機選擇一個樣本進行替換得到的。進而得到S個基預(yù)測器( base estimators),選擇estimators投票最多的類別作為分類結(jié)果,estimators的平均值作為回歸結(jié)果。(摘自《統(tǒng)計學(xué)習(xí)方法》和scikit集成方法介紹)
1.3 隨機森林(RF):基于boostrap重抽樣和隨機選取特征,基預(yù)測器是決策樹的集成方法(Ensemble methods)
1.4 Boosting :通過改變樣本的權(quán)重(誤分樣本權(quán)重擴大)學(xué)習(xí)多個基預(yù)測器,并將這些預(yù)測器進行線性加權(quán)的集成方法 (摘自《統(tǒng)計學(xué)習(xí)方法》)
1.5 梯度提升決策樹(GBDT):基于boosting方法,提升方向是梯度方向的決策樹的集成方法(Ensemble methods)
1.6 XGBDT:基于GBDT的一種升級版本,對目標函數(shù)做了二階導(dǎo)數(shù),主要改進是使用了正則化和特征分塊存儲并行處理(參考大殺器xgboost指南)
1.7 回歸/分類樹樹模型函數(shù):
,這里數(shù)據(jù)集被劃分為R1,...,Rm個區(qū)域,每一個區(qū)域?qū)?yīng)一個預(yù)測值Cm;其中I()是指示函數(shù),當滿足條件時返回1,否則為0
1.8 決策樹常見的損失函數(shù):
用于分類的損失函數(shù):01損失,LR的對數(shù)損失,softmax的mlogloss
用于回歸的損失函數(shù):線性回歸的MSE
2.算法推導(dǎo)
2.1 決策樹生成過程就是一個遞歸的過程,如果滿足某種停止條件(樣本都是同一類別,迭代次數(shù)或者其他預(yù)剪枝參數(shù))則返回多數(shù)投票的類作為葉結(jié)點標識;否則選擇最佳劃分特征和特征值生成|T|個子節(jié)點,對子節(jié)點數(shù)據(jù)進行劃分;所以劃分屬性的計算方式是DT的精髓,以下總結(jié)各種劃分屬性的計算方法(附一個java實現(xiàn)決策樹的demo):
ID3與C4.5中使用的信息增益和信息增益率:
延伸閱讀
學(xué)習(xí)是年輕人改變自己的最好方式