上一篇博客我們看了一個決策樹分類的例子,但是我們沒有深入決策樹分類的內(nèi)部原理。
這節(jié)我們討論的決策樹分類的所有特征的特征值都是離散的,明白了離散特征值如何分類的原理,連續(xù)值的也不難理解。
決策樹分類的核心在于確定那一個特征的那一個特征值分類最有效,可能不同的場景,每個人采用的衡量方法也不一樣,這里我們采用香農(nóng)熵。
下面我們看一下簡單的例子
五個樣例,兩個特征(是否浮上水面,是否有鰭),判斷該動物是否是水生(類別)
def createDataSet(): dataSet = [[1, 1, 'yes'], [1, 1, 'yes'], [1, 0, 'no'], [0, 1, 'no'], [0, 1, 'no']] labels = ['no surfacing','flippers'] return dataSet, labels
延伸閱讀
學習是年輕人改變自己的最好方式