前言
最近在看Peter Harrington寫(xiě)的“機(jī)器學(xué)習(xí)實(shí)戰(zhàn)”,這是我的學(xué)習(xí)心得,這次是第12章 - 使用FP-growth算法來(lái)高效發(fā)現(xiàn)頻繁項(xiàng)集。
基本概念
FP-growth算法
FP-growth算法的性能很好,只需要掃描兩次數(shù)據(jù)集,就能生成頻繁項(xiàng)集。但不能用于發(fā)現(xiàn)關(guān)聯(lián)規(guī)則。
我想應(yīng)該可以使用Apriori算法發(fā)現(xiàn)關(guān)聯(lián)規(guī)則。
FP代表頻繁模式(Frequent Pattern)。條件模式基(conditional pattern base)。
條件模式基是以所查找元素項(xiàng)為結(jié)尾的路徑集合。每一條路徑其實(shí)都是一條前綴路徑(prefix path)。
一條前綴路徑是介于所查找元素項(xiàng)與樹(shù)根節(jié)點(diǎn)之間的所有內(nèi)容。
FP-growth算法 - 用途
快速生成頻繁項(xiàng)集
在一批有共性的文章中找到經(jīng)常出現(xiàn)的匹配詞匯(共現(xiàn)詞),并進(jìn)一步發(fā)現(xiàn)關(guān)聯(lián)規(guī)則??梢杂糜谳斎胱詣?dòng)補(bǔ)全功能。
發(fā)現(xiàn)數(shù)據(jù)中的共性。比如,可以找到,哪類(lèi)用戶(hù)喜歡哪些文章。