上一篇博客我們看了一個決策樹分類的例子,但是我們沒有深入決策樹分類的內(nèi)部原理。

這節(jié)我們討論的決策樹分類的所有特征的特征值都是離散的,明白了離散特征值如何分類的原理,連續(xù)值的也不難理解。

決策樹分類的核心在于確定那一個特征的那一個特征值分類最有效,可能不同的場景,每個人采用的衡量方法也不一樣,這里我們采用香農(nóng)熵。

下面我們看一下簡單的例子

五個樣例,兩個特征(是否浮上水面,是否有鰭),判斷該動物是否是水生(類別)

大數(shù)據(jù)培訓,云培訓,數(shù)據(jù)挖掘培訓,云計算培訓,高端軟件開發(fā)培訓,項目經(jīng)理培訓

def createDataSet():
    dataSet = [[1, 1, 'yes'],
               [1, 1, 'yes'],
               [1, 0, 'no'],
               [0, 1, 'no'],
               [0, 1, 'no']]
    labels = ['no surfacing','flippers']    return dataSet, labels

延伸閱讀

學習是年輕人改變自己的最好方式-Java培訓,做最負責任的教育,學習改變命運,軟件學習,再就業(yè),大學生如何就業(yè),幫大學生找到好工作,lphotoshop培訓,電腦培訓,電腦維修培訓,移動軟件開發(fā)培訓,網(wǎng)站設計培訓,網(wǎng)站建設培訓學習是年輕人改變自己的最好方式