2015年6月8日 星期一

mining dat stream (concept drift)


1. concept drift

由於輸進的資料可能隨時間而有不同類型的改變(threadshold, type),而導致原先mining目標變得模糊的現象

解決方法:
利用Learning 的方式,在接受到不同資料後,會自動更改classifier


(1) 教科書電子檔
http://infolab.stanford.edu/~ullman/mmds/ch4.pdf

(2) 解釋很清楚的slide
http://www.slideshare.net/draxus/handling-concept-drift-in-data-stream-mining

資料安全 K means anonymity

生活中每個人的資料在不同場合之下會有許多份不同記錄

雖然每一份都是無法直接對應出實際人名的資料(匿名)

但借由資料間的相關性

可能找出所有的關聯

而泄露出個人隱私的問題存在

K means anonymity 就是提出這樣的疑慮

並提供方法解決它


ex.

Medical Data 和 Voter List 間所具有的共同資料 Zip, birthday date, sex
可能導致兩份資料能夠串聯在一起

------------

1. re-identification





(1) 解釋很簡潔的slide
https://www.cs.cmu.edu/~jblocki/Slides/K-Anonymity.pdf