譜聚類(spectral clustering)是廣泛使用的聚類算法,比起傳統(tǒng)的K-Means算法,譜聚類對數(shù)據(jù)分布的適應(yīng)性更強,聚類效果也很優(yōu)秀,同時聚類的計算量也小很多,更加難能可貴的是實現(xiàn)起來也不復(fù)雜。在處理實際的聚類問題時,個人認為譜聚類是應(yīng)該首先考慮的幾種算法之一。下面我們就對譜聚類的算法原理做一個總結(jié)。

1. 譜聚類概述

    譜聚類是從圖論中演化出來的算法,后來在聚類中得到了廣泛的應(yīng)用。它的主要思想是把所有的數(shù)據(jù)看做空間中的點,這些點之間可以用邊連接起來。距離較遠的兩個點之間的邊權(quán)重值較低,而距離較近的兩個點之間的邊權(quán)重值較高,通過對所有數(shù)據(jù)點組成的圖進行切圖,讓切圖后不同的子圖間邊權(quán)重和盡可能的低,而子圖內(nèi)的邊權(quán)重和盡可能的高,從而達到聚類的目的。

    乍一看,這個算法原理的確簡單,但是要完全理解這個算法的話,需要對圖論中的無向圖,線性代數(shù)和矩陣分析都有一定的了解。下面我們就從這些需要的基礎(chǔ)知識開始,一步步學習譜聚類。

2. 譜聚類基礎(chǔ)之一:無向權(quán)重圖

    由于譜聚類是基于圖論的,因此我們首先溫習下圖的概念。對于一個圖

延伸閱讀

學習是年輕人改變自己的最好方式-Java培訓,做最負責任的教育,學習改變命運,軟件學習,再就業(yè),大學生如何就業(yè),幫大學生找到好工作,lphotoshop培訓,電腦培訓,電腦維修培訓,移動軟件開發(fā)培訓,網(wǎng)站設(shè)計培訓,網(wǎng)站建設(shè)培訓學習是年輕人改變自己的最好方式