兩步聚類算法是在SPSS Modeler中使用的一種聚類算法,是BIRCH層次聚類算法的改進(jìn)版本。可以應(yīng)用于混合屬性數(shù)據(jù)集的聚類,同時(shí)加入了自動(dòng)確定最佳簇?cái)?shù)量的機(jī)制,使得方法更加實(shí)用。本文在學(xué)習(xí)文獻(xiàn)[1]和“IBM SPSS Modeler 15 Algorithms Guide”的基礎(chǔ)上,融入了自己的理解,更詳盡地?cái)⑹鰞刹骄垲愃惴ǖ牧鞒毯图?xì)節(jié)。閱讀本文之前需要先行學(xué)習(xí)BIRCH層次聚類算法和對(duì)數(shù)似然距離。

    兩步聚類算法,顧名思義分為兩個(gè)階段:

    1)預(yù)聚類(pre-clustering)階段。采用了BIRCH算法中CF樹生長(zhǎng)的思想,逐個(gè)讀取數(shù)據(jù)集中數(shù)據(jù)點(diǎn),在生成CF樹的同時(shí),預(yù)先聚類密集區(qū)域的數(shù)據(jù)點(diǎn),形成諸多的小的子簇(sub-cluster)。

    2)聚類(clustering)階段。以預(yù)聚類階段的結(jié)果——子簇為對(duì)象,利用凝聚法(agglomerative hierarchical clustering method),逐個(gè)地合并子簇,直到期望的簇?cái)?shù)量。

    兩步聚類算法的關(guān)鍵技術(shù)如圖所示:

 電腦培訓(xùn),計(jì)算機(jī)培
        
		<div   id=

網(wǎng)友評(píng)論