2015年5月24日 星期日

Cluster method (DBSCAN, K-means), cluster tendency, cluster validity

1. Method of classification

(1)DBSCAN :
優點 可以解決資料不規則分佈(歪七扭八參雜)

(2)K-means
缺點 不能解決不規則分佈資料

1. 隨機在空間中放下K點為中心點
2. 利用 Vironoi diagram 和中心點,將空間的所有點分成數個區塊
3. 計算區塊中所有點的平均值,將中心點移至那裡
4. 重複第2步驟,直至收斂


(3) MAX- distance

(4) MIN- distance




(1) 中文講解不同區分法k-means, DBSCAN
http://123android.blogspot.se/2012/01/28dec11-data-mining.html 

(2) wiki 演算法講解滿清楚
http://en.wikipedia.org/wiki/DBSCAN


-----------------------------------------------------------------------------



2. Cluster tendency

在我們真的去用演算法劃分cluster前

其實可以先借由一些方法來得知資料的分佈狀況

像是『平均分佈』或是『集中分佈』方式


ex. Hopkins statistic演算法


p 為資料空間中任意挑選的點,可以參雜真正的資料點
ui 為p點到彼此最近的點的距離
wi 為p點到最近的真正資料點的距離

從H值可以粗估一些狀況
-  接近0.5, 資料為平均分佈在空間中
-  接近1, 資料高度集中


-----------------------------------------------------------------------------



3. Cluster validity

在我們利用不同方法將資料區分成不同cluster之後

總得去分析這些方法的是否可行

下面就是幾種最為參考的數值




舉個例  
Ex.


Entropy 和 Purity 可以參考上表

但若考慮cluster 1 內

對於Metro 的 Precision = 506/667 = 0.75

對於Metro 的 Recall = 506/943 = 0.26

所以cluster 1 的 Metro 的 F measure = 2*0.75*0.26/(0.75+0.26) = 0.39




沒有留言:

張貼留言