(1)DBSCAN :
優點 可以解決資料不規則分佈(歪七扭八參雜)
(2)K-means
缺點 不能解決不規則分佈資料
1. 隨機在空間中放下K點為中心點
2. 利用 Vironoi diagram 和中心點,將空間的所有點分成數個區塊
3. 計算區塊中所有點的平均值,將中心點移至那裡
4. 重複第2步驟,直至收斂
(3) MAX- distance
(4) MIN- distance
(1) 中文講解不同區分法k-means, DBSCAN
http://123android.blogspot.se/2012/01/28dec11-data-mining.html
(2) wiki 演算法講解滿清楚
http://en.wikipedia.org/wiki/DBSCAN
-----------------------------------------------------------------------------
2. Cluster tendency
在我們真的去用演算法劃分cluster前
其實可以先借由一些方法來得知資料的分佈狀況
像是『平均分佈』或是『集中分佈』方式
ex. Hopkins statistic演算法
p 為資料空間中任意挑選的點,可以參雜真正的資料點
ui 為p點到彼此最近的點的距離
wi 為p點到最近的真正資料點的距離
從H值可以粗估一些狀況
- 接近0.5, 資料為平均分佈在空間中
- 接近1, 資料高度集中
-----------------------------------------------------------------------------
3. Cluster validity
在我們利用不同方法將資料區分成不同cluster之後
總得去分析這些方法的是否可行
下面就是幾種最為參考的數值
舉個例
Ex.
Entropy 和 Purity 可以參考上表
但若考慮cluster 1 內
對於Metro 的 Precision = 506/667 = 0.75
對於Metro 的 Recall = 506/943 = 0.26
所以cluster 1 的 Metro 的 F measure = 2*0.75*0.26/(0.75+0.26) = 0.39
沒有留言:
張貼留言