之前對(duì)決策樹(shù)的算法原理做了總結(jié),包括決策樹(shù)算法原理(上)決策樹(shù)算法原理(下)。今天就從實(shí)踐的角度來(lái)介紹決策樹(shù)算法,主要是講解使用scikit-learn來(lái)跑決策樹(shù)算法,結(jié)果的可視化以及一些參數(shù)調(diào)參的關(guān)鍵點(diǎn)。

1. scikit-learn決策樹(shù)算法類庫(kù)介紹

scikit-learn決策樹(shù)算法類庫(kù)內(nèi)部實(shí)現(xiàn)是使用了調(diào)優(yōu)過(guò)的CART樹(shù)算法,既可以做分類,又可以做回歸。分類決策樹(shù)的類對(duì)應(yīng)的是DecisionTreeClassifier,而回歸決策樹(shù)的類對(duì)應(yīng)的是DecisionTreeRegressor。兩者的參數(shù)定義幾乎完全相同,但是意義不全相同。下面就對(duì)DecisionTreeClassifier和DecisionTreeRegressor的重要參數(shù)做一個(gè)總結(jié),重點(diǎn)比較兩者參數(shù)使用的不同點(diǎn)和調(diào)參的注意點(diǎn)。

2. DecisionTreeClassifierDecisionTreeClassifier 重要參數(shù)調(diào)參注意點(diǎn)

為了便于比較,這里我們用表格的形式對(duì)DecisionTreeClassifier和DecisionTreeRegressor重要參數(shù)要點(diǎn)做一個(gè)比較。

<code id="crnpq"><noframes id="crnpq"><thead id="crnpq"></thead></noframes></code>

參數(shù) DecisionTreeClassifier DecisionTreeRegressor

特征選擇標(biāo)準(zhǔn)criterion

可以使用"gini"或者"entropy",前者代表基尼系數(shù),后者代表信息增益。一般說(shuō)使用默認(rèn)的基尼系數(shù)"gini"就可以了,即CART算法。除非你更喜歡類似ID3, C4.5的最優(yōu)特征選擇方法。 

 可以使用"mse"或者"mae",前者是均方差,后者是和均值之差的絕對(duì)值之和。推薦使用默認(rèn)的"mse"。一般來(lái)說(shuō)"mse"比"mae"更加精確。除非你想比較二個(gè)參數(shù)的效果的不同之處。

網(wǎng)友評(píng)論