上一篇博客我們看了一個決策樹分類的例子,但是我們沒有深入決策樹分類的內(nèi)部原理。

這節(jié)我們討論的決策樹分類的所有特征的特征值都是離散的,明白了離散特征值如何分類的原理,連續(xù)值的也不難理解。

決策樹分類的核心在于確定那一個特征的那一個特征值分類最有效,可能不同的場景,每個人采用的衡量方法也不一樣,這里我們采用香農(nóng)熵。

下面我們看一下簡單的例子

五個樣例,兩個特征(是否浮上水面,是否有鰭),判斷該動物是否是水生(類別)

大數(shù)據(jù)培訓,云培訓,數(shù)據(jù)挖掘培訓,云計算培訓,高端軟件開發(fā)培訓,項目經(jīng)理培訓

def createDataSet():
    dataSet = [[1, 1, 'yes'],
               [1, 1, 'yes'],
               [1, 0, 'no'],
               [0, 1, 'no'],
               [0, 1, 'no']]
    labels = ['no surfacing','flippers']    return dataSet, labels

網(wǎng)友評論