K均值聚類算法的MATLAB實現 - 全文

　　K-means算法是最簡單的一種聚類算法。算法的目的是使各個樣本與所在類均值的誤差平方和達到最小（這也是評價K-means算法最后聚類效果的評價標準）

　　K-means聚類算法的一般步驟：

　　初始化。輸入基因表達矩陣作為對象集X，輸入指定聚類類數N，并在X中隨機選取N個對象作為初始聚類中心。設定迭代中止條件，比如最大循環次數或者聚類中心收斂誤差容限。

　　進行迭代。根據相似度準則將數據對象分配到最接近的聚類中心，從而形成一類。初始化隸屬度矩陣。

　　更新聚類中心。然后以每一類的平均向量作為新的聚類中心，重新分配數據對象。

　　反復執行第二步和第三步直至滿足中止條件。

　　K-均值聚類法的概述

　　之前在參加數學建模的過程中用到過這種聚類方法，但是當時只是簡單知道了在matlab中如何調用工具箱進行聚類，并不是特別清楚它的原理。最近因為在學模式識別，又重新接觸了這種聚類算法，所以便仔細地研究了一下它的原理。弄懂了之后就自己手工用matlab編程實現了，最后的結果還不錯，嘿嘿~~~

　　簡單來說，K-均值聚類就是在給定了一組樣本（x1， x2，。。.xn）（xi， i = 1， 2，。。。 n均是向量）之后，假設要將其聚為 m（《n）類，可以按照如下的步驟實現：

　　Step 1：從（x1， x2，。。.xn）中隨機選擇 m 個向量（y1，y2，。。.ym）作為初始的聚類中心（可以隨意指定，不在n個向量中選擇也可以）;

　　Step 2：計算（x1， x2，。。.xn）到這 m 個聚類中心的距離（嚴格來說為 2階范數）;

　　Step 3：對于每一個 xi（i = 1，2，。。.n）比較其到（y1，y2，。。.ym）距離，找出其中的最小值，若到 yj 的距離最小，則將 xi 歸為第j類;

　　Step 4： m 類分好之后，計算每一類的均值向量作為每一類新的聚類中心;

　　Step 5：比較新的聚類中心與老的聚類中心之間的距離，若大于設定的閾值，則跳到 Step2; 否則輸出分類結果和聚類中心，算法結束。

　　單介紹下kmeans算法流程：

　　假設要把樣本集分為c個類別，算法描述如下：

　　（1）適當選擇c個類的初始中心；

　?。?）在第k次迭代中，對任意一個樣本，求其到c各中心的距離，將該樣本歸到距離最短的中心所在的類；

　　（3）利用均值等方法更新該類的中心值；

　?。?）對于所有的c個聚類中心，如果利用（2）（3）的迭代法更新后，值保持不變，則迭代結束，否則繼續迭代。

　　該算法的最大優勢在于簡潔和快速。算法的關鍵在于初始中心的選擇和距離公式。

　　matlab實現：

　　function ［ class count］=k_means（data，k）;

　　%clear

　　%load testdata.mat

　　%k=2;

　　sum=size（data，1）;

　　for i=1:k

　　centroid（i，：）=data（floor（sum/k）*（i-1）+1，：）;

　　end

　　tic

　　ck=0;

　　while 1

　　temp=zeros（1，2）;;

　　count=zeros（1，k）;

　　ck=ck+1

　　for i=1:sum

　　for j=1:k

　　dist（j）=norm（data（i，：）-centroid（j，：））;

　　end

　　［a min_dist］=min（dist）;

　　count（min_dist）=count（min_dist）+1;

　　class（min_dist，count（min_dist））=i;

　　end

　　%重新計算類中心

　　for i=1:k

　　for j=1:count（i）

　　temp=temp+data（class（i，j），：）;

　　end

　　temp_centroid（i，：）=temp/（count（i））;

　　temp（1，：）=0;

　　% temp_centroid（i，：）=re_calculate（class（i，：），count（i），tdata）;

　　end

　　%計算新的類中心和原類中心距離centr_dist;

　　for i=1:k

　　centr_dist（i）=norm（temp_centroid（i，：）-centroid（i，：））;

　　end

　　if max（centr_dist）《=0

　　break;

　　else

　　for i=1:k

　　centroid（i，：）=temp_centroid（i，：）;

　　%重新進行前倆不

　　end

　　toc

　　數據點是鼠標插進去的，通過界面可以很清晰的看到分類過程，功能截圖如下：

　　 K均值聚類算法的MATLAB實現

　　下面來看看K-means是如何工作的：

　　 K均值聚類算法的MATLAB實現

　　圖中圓形為聚類中心，方塊為待聚類數據，步驟如下：

　　（a）選取聚類中心，可以任意選取，也可以通過直方圖進行選取。我們選擇三個聚類中心，并將數據樣本聚到離它最近的中心；

　　（b）數據中心移動到它所在類別的中心；

　?。╟）數據點根據最鄰近規則重新聚到聚類中心；

　?。╠）再次更新聚類中心；不斷重復上述過程直到評價標準不再變化

　　評價標準：

　　 clip_image016[6]

　　假設有M個數據源，C個聚類中心。μc為聚類中心。該公式的意思也就是將每個類中的數據與每個聚類中心做差的平方和，J最小，意味著分割的效果最好。

　　K-means面臨的問題以及解決辦法：

　　1.它不能保證找到定位聚類中心的最佳方案，但是它能保證能收斂到某個解決方案（不會無限迭代）。

　　解決方法：多運行幾次K-means，每次初始聚類中心點不同，最后選擇方差最小的結果。

　　2.它無法指出使用多少個類別。在同一個數據集中，例如上圖例，選擇不同初始類別數獲得的最終結果是不同的。

　　解決方法：首先設類別數為1，然后逐步提高類別數，在每一個類別數都用上述方法，一般情況下，總方差會很快下降，直到到達一個拐點；這意味著再增加一個聚類中心不會顯著減少方差，保存此時的聚類數。

　　MATLAB函數Kmeans

　　使用方法：

　　Idx=Kmeans（X，K）

　?。跧dx，C］=Kmeans（X，K）

　?。跧dx，C，sumD］=Kmeans（X，K）

　　［Idx，C，sumD，D］=Kmeans（X，K）

　?。邸?Kmeans（…，’Param1’，Val1，’Param2’，Val2，…）

　　各輸入輸出參數介紹：

　　X： N*P的數據矩陣，N為數據個數，P為單個數據維度

　　K：表示將X劃分為幾類，為整數

　　Idx： N*1的向量，存儲的是每個點的聚類標號

　　C： K*P的矩陣，存儲的是K個聚類質心位置

　　sumD： 1*K的和向量，存儲的是類間所有點與該類質心點距離之和

　　D： N*K的矩陣，存儲的是每個點與所有質心的距離

　?。邸?Kmeans（…，‘Param1’，Val1，‘Param2’，Val2，…）

　　這其中的參數Param1、Param2等，主要可以設置為如下：

　　1. ‘Distance’（距離測度）

　　‘sqEuclidean’ 歐式距離（默認時，采用此距離方式）

　　‘cityblock’ 絕度誤差和，又稱：L1

　　‘cosine’ 針對向量

　　‘correlation’ 針對有時序關系的值

　　‘Hamming’ 只針對二進制數據

　　2. ‘Start’（初始質心位置選擇方法）

　　‘sample’ 從X中隨機選取K個質心點

　　‘uniform’ 根據X的分布范圍均勻的隨機生成K個質心

　　‘cluster’ 初始聚類階段隨機選擇10%的X的子樣本（此方法初始使用’sample’方法）

　　matrix 提供一K*P的矩陣，作為初始質心位置集合

　　3. ‘Replicates’（聚類重復次數）整數

　　使用案例：

　　data=

　　5.0 3.5 1.3 0.3 -1

　　5.5 2.6 4.4 1.2 0

　　6.7 3.1 5.6 2.4 1

　　5.0 3.3 1.4 0.2 -1

　　5.9 3.0 5.1 1.8 1

　　5.8 2.6 4.0 1.2 0

　　［Idx，C，sumD，D］=Kmeans（data，3，‘dist’，‘sqEuclidean’，‘rep’，4）

　　運行結果：

　　Idx =

　　C =

　　5.0000 3.4000 1.3500 0.2500 -1.0000

　　5.6500 2.6000 4.2000 1.2000 0

　　6.3000 3.0500 5.3500 2.1000 1.0000

　　sumD =

　　0.0300

　　0.1250

　　0.6300

　　D =

　　0.0150 11.4525 25.5350

　　12.0950 0.0625 3.5550

　　29.6650 5.7525 0.3150

　　0.0150 10.7525 24.9650

　　21.4350 2.3925 0.3150

　　10.2050 0.0625 4.0850

閱讀全文

上一頁 1 2 3全文

本文導航

matlab(227703) matlab(227703)
均值聚類(6740) 均值聚類(6740)

如何在 Python 中安裝和使用頂級聚類算法

有許多聚類算法可供選擇，對于所有情況，沒有單一的最佳聚類算法。相反，最好探索一系列聚類算法以及每種算法的不同配置。在本教程中，你將發現如何在 python 中安裝和使用頂級聚類算法。

2023-05-22 09:13:55

171

10種頂流聚類算法Python實現（附完整代碼）

分享一篇關于聚類的文章：10種聚類算法和Python代碼。

2023-01-07 09:33:38

566

K-means聚類算法指南

在聚類技術領域中，K-means可能是最常見和經常使用的技術之一。K-means使用迭代細化方法，基于用戶定義的集群數量（由變量K表示）和數據集來產生其最終聚類。例如，如果將K設置為3，則數據集將分組為3個群集，如果將K設置為4，則將數據分組為4個群集，依此類推。

2022-10-28 14:25:21

499

基于距離的聚類算法K-means的設計實現

K-means 算法是典型的基于距離的聚類算法，采用距離作為相似性的評價指標，兩個對象的距離越近，其相似度就越大。而簇是由距離靠近的對象組成的，因此算法目的是得到緊湊并且獨立的簇。

2022-07-18 09:19:13

1438

K-MEANS聚類算法概述及工作原理

K-means 是一種聚類算法，且對于數據科學家而言，是簡單且熱門的無監督式機器學習(ML)算法之一。

2022-06-06 11:53:55

2540

FCM聚類算法用于醫學圖像分割matlab源程序

FCM聚類算法以及改進模糊聚類算法用于醫學圖像分割的matlab源程序

2018-05-11 23:30:42

基于模糊C均值聚類的軟件多缺陷定位方法

2021-06-02 14:38:41

基于密度的改進K-均值聚類組合方法

為構建行駛工況，消除K均值算法對初始聚類中心的敏感性及噪聲點的干擾，提岀一種改進主成分分析和基于密度的改進k-均值聚類組合方法。結合距離優化法和密度法，構建一種數據集密度度量方法。選取距離較大、密度

2021-05-31 11:16:08

基于最優傳輸距離和聚類的WSN分簇算法

簇控制在最優傳輸距離內，實現簇內節點的能耗均衡。通過目標函數對K- means聚類簇進行優化，保證簇內節點數目的均勻分布，并在考慮剩余能量和地理位置的基礎上完成節點數據傳輸。實驗結果表明，該算法在均衡網絡能耗的同時，可有效延長網絡生命

2021-05-26 14:50:17

使用新的距離度量方式的增量式聚類算法

針對含有噪聲的高維數據的聚類問題，提岀一種使用新的距離度量方式的増量式聚類算法 ANFCM（cp）。由于傳統的模糊C均值聚類算法對初始化聚類中心比較敏感，所提岀的聚類算法將單程FCM的増量機制（稱為

2021-05-12 15:20:51

基于混合蛙跳算法的K-mediods聚類算法

為了降低K- mediods聚類算法的誤差并提高并行優化的性能，將混合蛙跳算法運用于聚類和并行優化過程。在Kmediods聚類過程中，將K- mediods與聚類簇思想相結合，對各個聚類簇進行混合

2021-05-08 16:17:18

一種基于密度的改進k-均值聚類組合方法

為構建行駛工況，消除K-均值算法對初始聚類中心的敏感性及噪聲點的干擾，提岀一種改進主成分分析和基于密度的改進K-均值聚類組合方法。結合距離優化法和密度法，構建一種數據集密度度量方法。選取距離較大

2021-04-16 15:36:00

一種自適應的關聯融合聚類算法

除邊界點和噪聲點對聚類結果的影響。引入關聯度矩陣，通過計算類簇間的關聯程度和融合度量，選取最優關聯簇進行融合得到最終聚類結果。實驗結果表明，該算法無需人工設置聚類參數，并且與基于密度的空間聚類算法和K均值聚類算法

2021-04-01 16:16:49

針對高維稀疏數據的可重疊子空間K-Means聚類算法

子空間并定義合理的約東函數指導聚類過程，從而實現類簇的可重疊性與離群點的控制。在此基礎上定義合理的目標函數對傳統K- Means算法進行修正，利用熵權約東分別計算每個類簇中各維度的權重，使用權重值標識不同類簇中維度的相對重要性，

2021-03-25 14:07:10

一種改進的聚類聯合相似度推薦算法

度推薦算法。采用改進的蜂群算法來優化K- means++聚類的中心點，使聚類中心在整個數據內達到最優，并對聚類結果進行集成，使得聚類得到進一步優化。根據聚類結果，在同一類中采用改進的用戶相似度算法來優化傳統相似度算法，

2021-03-18 11:17:11

如何在python中安裝和使用頂級聚類算法?

聚類或聚類分析是無監督學習問題。它通常被用作數據分析技術，用于發現數據中的有趣模式，例如基于其行為的客戶群。有許多聚類算法可供選擇，對于所有情況，沒有單一的最佳聚類算法。相反，最好探索一系列聚類算法

2021-03-12 18:23:43

1828

100天搞定機器學習：day54 聚類系列：層次聚類原理及案例

幾張GIF理解K-均值聚類原理k均值聚類數學推導與python實現前文說了k均值聚類，他是基于中心的聚類方法，通過迭代將樣本分到k個類中，使...

2020-12-10 21:56:09

216

常見的幾種聚類算法

這一最著名的聚類算法主要基于數據點之間的均值和與聚類中心的聚類迭代而成。它主要的優點是十分的高效，由于只需要計算數據點與劇類中心的距離，其計算復雜度只有O（n）。

2020-04-15 15:23:29

14904

正確選擇聚類算法的建議

聚類算法十分容易上手，但是選擇恰當的聚類算法并不是一件容易的事。

2020-03-15 17:10:00

1663

如何使用K-Means聚類算法改進的特征加權算法詳細資料概述

聚類分析是將研究對象分為相對同質的群組的統計分析技術，聚類分析的核心就是發現有用的對象簇。K-means聚類算法由于具有出色的速度和良好的可擴展性，一直備受廣大學者的關注。然而，傳統的K

2018-12-20 10:28:29

如何使用差分隱私保護進行譜聚類算法

中，干擾樣本個體之間的權重值，實現樣本個體間的信息隱藏以達到隱私保護的目的。通過UCI數據集上的仿真實驗，表明該算法能夠在一定的信息損失度范圍內實現有效的數據聚類，也可以對聚類數據進行保護。

2018-12-14 10:54:26

如何使用多維網格空間進行改進K-means聚類算法資料概述

K-means算法是被廣泛使用的一種聚類算法，傳統的-means算法中初始聚類中心的選擇具有隨機性，易使算法陷入局部最優，聚類結果不穩定。針對此問題，引入多維網格空間的思想，首先將樣本集映射到一個

2018-12-13 17:56:55

如何使用概率模型進行非均勻數據聚類算法的設計介紹

針對傳統K-means型算法的“均勻效應”問題，提出一種基于概率模型的聚類算法。首先，提出一個描述非均勻數據簇的高斯混合分布模型，該模型允許數據集中同時包含密度和大小存在差異的簇；其次，推導了非均勻

2018-12-13 10:57:59

使用模擬退火與貪心策略的平衡聚類算法的介紹

）2個步驟，以提高平衡聚類算法的聚類效果與時間性能。首先基于模擬退火在數據集中快速定位出K個合適的數據點作為平衡聚類初始點，然后每個中心點分階段貪婪地將距離其最近的數據點加入簇中直至達到簇規模上限。在6個UCI真實數據集與2個公開圖

2018-11-28 09:53:06

Python無監督學習的幾種聚類算法包括K-Means聚類,分層聚類等詳細概述

無監督學習是機器學習技術中的一類，用于發現數據中的模式。本文介紹用Python進行無監督學習的幾種聚類算法，包括K-Means聚類、分層聚類、t-SNE聚類、DBSCAN聚類等。

2018-05-27 09:59:13

29359

淺談Matlab中的聚類分析 Matlab聚類程序的設計

Matlab 提供系列函數用于聚類分析，歸納起來具體方法有如下：方法一：直接聚類，利用 clusterdata 函數對樣本數據進行一次聚類，其缺點為可供用戶選擇的面較窄，不能更改距離的計算方法，該方法的使用者無需了解聚類的原理和過程，但是聚類效果受限制。

2018-05-18 15:04:00

6775

基于密度DBSCAN的聚類算法

本文開始介紹了聚類算法概念，其次闡述了聚類算法的分類，最后詳細介紹了聚類算法中密度DBSCAN的相關概況。

2018-04-26 10:56:41

21028

k means聚類算法實例

與分類不同，分類是示例式學習，要求分類前明確各個類別，并斷言每個元素映射到一個類別，而聚類是觀察式學習，在聚類前可以不知道類別甚至不給定類別數量，是無監督學習的一種。目前聚類廣泛應用于統計學、生物學、數據庫技術和市場營銷等領域，相應的算法也非常的多。

2018-02-12 16:42:35

14535

聚類集成的網絡流量分類方法

的規范化互信息（NMI）；然后基于NMI的值來選擇用于聚類集成的K均值基聚類器的K值序列；最后采用二次互信息（ QMI）的一致函數生成一致聚類結果，并使用一種半監督方法對聚類簇進行標注。通過實驗比較了聚類集成方法與單個聚類算法

2018-02-09 10:35:56

基于最優投影的半監督聚類算法

針對譜聚類算法在解決高維、大數據量的聚類問題時出現的效率不高和準確率明顯下降的問題進行了研究，并在此研究基礎上結合最優投影理論和Nystrom抽樣提出了基于最優投影的半監督譜聚類算法

2018-01-14 11:54:58

基于距離最大化和缺失數據聚類的填充算法

通過對基于K-means聚類的缺失值填充算法的改進，文中提出了基于距離最大化和缺失數據聚類的填充算法。首先，針對原填充算法需要提前輸入聚類個數這一缺點，設計了改進的K-means聚類算法：使用數據間

2018-01-09 10:56:56

基于可能性二均值聚類的二分類支持向量機

提出基于可能性二均值聚類（Possibilistic Two Means， P2M）的二分類支持向量機（Support Vector Machine，SVM）。該算法先用P2M對未知類別的二分類數據

2018-01-09 10:45:01

基于SVM和模糊K均值算法的部位外觀模型

基于SVM和模糊K均值算法的部位外觀模型。部位外觀模型由兩個分類器構成，線性SVM分類器用于判斷部位定位狀態是否屬于人體部位，相似度分類器由部位定位狀態與利用模糊K均值算法確定的部位聚類中心的歸一化歐氏距離來構造，用于計算

2018-01-08 15:13:40

基于近鄰傳播的遷移聚類算法

在目標域可利用數據匱乏的場景下，傳統聚類算法的性能往往會下降，在該場景下，通過抽取源域中的有用知識用于指導目標域學習以得到更為合適的類別信息和聚類性能，是一種有效的學習策略．借此提出一種基于近鄰傳播

2018-01-07 09:34:44

基于相似度的聚類算法

基于相似度的聚類算法，該算法結合區間值模糊軟集的特性，著重對給出評價對象的具有相似知識水平的專家進行聚類，同時討論了算法的計算復雜度。最后通過實例說明該算法能有效地處理專家聚類問題。

2018-01-05 16:15:27

中點密度函數的模糊聚類算法

針對傳統模糊C一均值（ FCM）聚類算法初始聚類中心不確定，且需要人為預先設定聚類類別數，從而導致結果不準確的問題，提出了一種基于中點密度函數的模糊聚類算法。首先，結合逐步回歸思想作為初始聚類中心

2017-12-26 15:54:20

大數據處理的優化抽樣聚類K-means算法

針對大數據環境下K-means聚類算法聚類精度不足和收斂速度慢的問題，提出一種基于優化抽樣聚類的K-means算法（OSCK）。首先，該算法從海量數據中概率抽樣多個樣本；其次，基于最佳聚類中心的歐氏

2017-12-22 15:47:18

距離不等式的K-medoids聚類算法

研究加速K-medoids聚類算法，首先以PAM（partitiomng around medoids）、TPAM（triangular inequality elimination

2017-12-22 15:35:47

基于密度差分的自動聚類算法

聚類作為無監督學習技術，已在實際中得到了廣泛的應用，但是對于帶有噪聲的數據集，一些主流算法仍然存在著噪聲去除不徹底和聚類結果不準確等問題．本文提出了一種基于密度差分的自動聚類算法（CDD

2017-12-18 11:16:57

基于改進核模糊C均值類間極大化聚類MKFCM算法

傳統的核聚類僅考慮了類內元素的關系而忽略了類間的關系，對邊界模糊或邊界存在噪聲點的數據集進行聚類分析時，會造成邊界點的誤分問題。為解決上述問題，在核模糊C均值（ KFCM）聚類算法的基礎上提出了一種

2017-12-15 10:52:53

基于布谷鳥搜索的K-means聚類算法

針對原始K-means聚類算法受初始聚類中心影響過大以及容易陷入局部最優的不足，提出一種基于改進布谷鳥搜索（cs）的K-means聚類算法（ACS-K-means）。其中，自適應CS（ ACS）算法

2017-12-13 17:24:06

一種新的基于流行距離的譜聚類算法

方法進行改進，將傳統譜聚類算法（NJW-SC）中的基于歐氏距離的相似性測度換為基于流行距離的相似性測度，在此基礎上對樣本對象集進行聚類。之后將新提出來的算法同K-Means算法、傳統譜聚類算法、模糊C均值聚類算法在人工數據集

2017-12-07 14:53:03

基于像素聚類進行圖像分割的算法

的算法。首先，通過各向異性擴散處理圖像；然后，使用一維K-均值對像素進行聚類；最后，根據聚類結果和先驗知識將像素值修改為最佳類中心像素值。理論分析表明該算法可以使圖像的峰值信噪比（ PSNR）達到最大值。實驗結果表明：所

2017-12-06 16:44:11

基于時空模式的軌跡數據聚類算法

針對軌跡聚類算法在相似性度量中多以空間特征為度量標準，缺少對時間特征的度量，提出了一種基于時空模式的軌跡數據聚類算法。該算法以劃分再聚類框架為基礎，首先利用曲線邊緣檢測方法提取軌跡特征點；然后根據

2017-12-05 14:07:58

基于Spark的動態聚類算法研究

D-Stream作出并行化改進，用通用的大數據處理框架Spark設計了一個基于分布式架構運行的動態數據聚類算法PDStream。實驗結果表明，該算法具有更高的效率和良好的擴展性，能夠實現分布式架構下的流數據動態聚類。

2017-12-04 09:22:51

基于人群疏散仿真的折半聚類算法

運用社會力模型（ SFM）模擬人群疏散之前，需要先對人群進行聚類分組；然而，五中心聚類（k-medoids）和統計信息網格聚類（ STING）這兩大傳統聚類算法，在聚類效率和準確率上都不能滿足要求

2017-12-03 10:53:04

模糊C均值聚類算法(原理+Matlab代碼)

盡可能歸于一類，而把不相似的樣本劃分到不同的類中。硬聚類把每個待識別的對象嚴格的劃分某類中，具有非此即彼的性質，而模糊聚類建立了樣本對類別的不確定描述，更能客觀的反應客觀世界，從而成為聚類分析的主流。

2017-12-01 14:26:02

48589

165890

913

已全部加載完成

搜索歷史

K均值聚類算法的MATLAB實現 - 全文

K-means聚類算法的一般步驟：

K-均值聚類法的概述

單介紹下kmeans算法流程：

matlab實現：

下面來看看K-means是如何工作的：

K-means面臨的問題以及解決辦法：

MATLAB函數Kmeans

本文導航

評論

　　K-means聚類算法的一般步驟：

　　K-均值聚類法的概述

　　單介紹下kmeans算法流程：

　　matlab實現：

　　下面來看看K-means是如何工作的：

　　K-means面臨的問題以及解決辦法：

　　MATLAB函數Kmeans