之前對決策樹的算法原理做了總結(jié),包括決策樹算法原理(上)和決策樹算法原理(下)。今天就從實踐的角度來介紹決策樹算法,主要是講解使用scikit-learn來跑決策樹算法,結(jié)果的可視化以及一些參數(shù)調(diào)參的關(guān)鍵點。
1. scikit-learn決策樹算法類庫介紹
scikit-learn決策樹算法類庫內(nèi)部實現(xiàn)是使用了調(diào)優(yōu)過的CART樹算法,既可以做分類,又可以做回歸。分類決策樹的類對應(yīng)的是DecisionTreeClassifier,而回歸決策樹的類對應(yīng)的是DecisionTreeRegressor。兩者的參數(shù)定義幾乎完全相同,但是意義不全相同。下面就對DecisionTreeClassifier和DecisionTreeRegressor的重要參數(shù)做一個總結(jié),重點比較兩者參數(shù)使用的不同點和調(diào)參的注意點。
2. DecisionTreeClassifier和DecisionTreeClassifier 重要參數(shù)調(diào)參注意點
為了便于比較,這里我們用表格的形式對DecisionTreeClassifier和DecisionTreeRegressor重要參數(shù)要點做一個比較。
參數(shù) | DecisionTreeClassifier | DecisionTreeRegressor |
特征選擇標(biāo)準(zhǔn)criterion |
可以使用"gini"或者"entropy",前者代表基尼系數(shù),后者代表信息增益。一般說使用默認(rèn)的基尼系數(shù)"gini"就可以了,即CART算法。除非你更喜歡類似ID3, C4.5的最優(yōu)特征選擇方法。 |
可以使用"mse"或者"mae",前者是均方差,后者是和均值之差的絕對值之和。推薦使用默認(rèn)的"mse"。一般來說"mse"比"mae"更加精確。除非你想比較二個參數(shù)的效果的不同之處。 |
我想了解如何學(xué)習(xí) |