在K-Means聚類算法原理中,我們講到了K-Means和Mini Batch K-Means的聚類原理。這里我們再來看看另外一種常見的聚類算法BIRCH。BIRCH算法比較適合于數(shù)據(jù)量大,類別數(shù)K也比較多的情況。它運(yùn)行速度很快,只需要單遍掃描數(shù)據(jù)集就能進(jìn)行聚類,當(dāng)然需要用到一些技巧,下面我們就對BIRCH算法做一個(gè)總結(jié)。
1. BIRCH概述
BIRCH的全稱是利用層次方法的平衡迭代規(guī)約和聚類(Balanced Iterative Reducing and Clustering Using Hierarchies),名字實(shí)在是太長了,不過沒關(guān)系,其實(shí)只要明白它是用層次方法來聚類和規(guī)約數(shù)據(jù)就可以了。剛才提到了,BIRCH只需要單遍掃描數(shù)據(jù)集就能進(jìn)行聚類,那它是怎么做到的呢?
BIRCH算法利用了一個(gè)樹結(jié)構(gòu)來幫助我們快速的聚類,這個(gè)數(shù)結(jié)構(gòu)類似于平衡B+樹,一般將它稱之為聚類特征樹(Clustering Feature Tree,簡稱CF Tree)。這顆樹的每一個(gè)節(jié)點(diǎn)是由若干個(gè)聚類特征(Clustering Feature,簡稱CF)組成。從下圖我們可以看看聚類特征樹是什么樣子的:每個(gè)節(jié)點(diǎn)包括葉子節(jié)點(diǎn)都有若干個(gè)CF,而內(nèi)部節(jié)點(diǎn)的CF有指向孩子節(jié)點(diǎn)的指針,所有的葉子節(jié)點(diǎn)用一個(gè)雙向鏈表鏈接起來。
有了聚類特征樹的概念,我們再對聚類特征樹和其中節(jié)點(diǎn)的聚類特征CF做進(jìn)一步的講解。
2. 聚類特征CF與聚類特征樹CF Tree
在聚類特征樹中,一個(gè)聚類特征CF是這樣定義的:每一個(gè)CF是一個(gè)三元組,可以用(N,LS,SS)表示。其中N代表了這個(gè)CF中擁有的樣本