2015年5月24日 星期日

Frequent itemset (Aprori, FP-growth, sequential patternsㄎ

這些演算法

都是希望能在資料群中找出常發生的資料


1. Aprori

非常耗時間,但直覺且簡單



2. FP growth


(1) 不錯的slide
http://www.slideshare.net/deepti92pawar/the-comparative-study-of-apriori-and-fpgrowth-algorithm



3. Tree projection algorithm - lexicographical tree


4. PROPAD algorithm


整個演算法大致為前三步驟循環
(1)建立transaction/tempory itemset
(2)由上建立frequent itemset table
(3)由上建立projected transaction table
(4)以上面table中的點,從(1)開始繼續
(5)建立frequent set tree

ex.



(1) 可以參考這篇paper
Depth-First Frequent Itemset Mining in RelationalDatabases




4. ECLAT algorithm

不同transaction但同樣的element以自己的TID作為標記,放在一起

再利用merge的方式,即可快速得到support counting,而不必搜尋全部資料




---------------------------------------------------------------------------------


3. Sequential patterns (data stream mining)


(1) Maxspan constraint: 以最大時間來限制可考慮的資料範圍,會影響support counting 的值

(2) Maxgap and Mingap constraint: 跟上面方法很類似,但同時考慮最大和最小範圍,一樣會影響support counting 的值。

但要注意的是

若是採用這些限制可能影響Aprori演算法中,subsequence 一定也是frequent itemset

因此有新的modified Aprori Principle判斷法則

就是只考慮同樣指符合時間限制的subsequence

ex.

<1,3,5> 的 subsequence 可以有 <1,3>, <1,5>, <3,5>

但若限制 maxgap = 1

則subsequence只考慮 <1,3>, <3,5>

沒有留言:

張貼留言