Presentation is loading. Please wait.

Presentation is loading. Please wait.

第 6 章 關連分析: 基本概念和演算法      © 2008 台灣培生教育出版 (Pearson Education Taiwan)

Similar presentations


Presentation on theme: "第 6 章 關連分析: 基本概念和演算法      © 2008 台灣培生教育出版 (Pearson Education Taiwan)"— Presentation transcript:

1 第 6 章 關連分析: 基本概念和演算法      © 2008 台灣培生教育出版 (Pearson Education Taiwan)

2 基本專有名詞 二元表示方式:購物籃資料可以被表示成二元格式 項目集:在關聯分析中,一堆0 或更多項目被稱為 一項目集
支持個數:其代表交易中包含特定項目集之數量

3 基本專有名詞 關聯規則:關聯規則為 X→Y 的表示式,X 和Y 為 無交集的項目集,即 。
強度由支持度( support )和信賴度(confidence )進行測量 支持度, 信賴度,

4 關聯規則探勘(1) 給定交易集合T,找尋支持度≧最小支持度( minsup)且信賴度≧最小信賴度(minconf)的所 有規則。最小支持度和最小信賴度代表的是支持度 和信賴度的門檻值 以窮舉法(brute-force approach)探勘關聯規 則時會計算每一可能規則的支持度和信賴度, 初始步驟有助於改善關聯規則探勘演算法的執 行,以減少計算支持度和信賴度的需求

5 關聯規則探勘(2) 關聯規則探勘的演算法將問題切割成二個主要的子 工作:
高頻項目集的產生(Frequent Itemset Generation),尋找所有滿足最低支持度門檻 值的項目集 規則產生(Rule Generation),從前一步驟找 到的高頻項目集中,萃取所有具有高信賴度的 規則,這些規則被稱為強規則(strong rule)

6 高頻項目集的產生 晶格(lattice)結構可被用來列舉所有可能的項目 集合 一個項目集 I = {a,b,c,d,e} 的晶格

7 Apriori 原則(1) 若一項目集是高頻項目集,則他的所有子集合也必 定是高頻的

8 Apriori 原則(2) 若{a,b}是非高頻(infrequent)項目,則{a,b}的所 有超集合也會是非高頻項目

9 Apriori 演算法中的高頻項目集產生

10 候選集的產生與刪除(1) 候選集產生。這個步驟是以高頻 (k-1)-項目集為基 礎,來產生新候選k-項目集。
應該要避免產生太多不必要的候選集 必須保證候選集合是完整的 不應產生同樣的候選集合超過一次以上 候選集刪除。這個步驟使用以支持度為基礎之刪除 策略來淘汰一些候選k-項目集。

11 候選集的產生與刪除(2) 產生候選集的方法 — 窮舉法 圖 以窮舉法產生候選3-項目集

12 候選集的產生與刪除(3) 產生候選集的方法 — Fk-1 ×F1 法
圖 藉由合併高頻 (k-1)-項目集與一個高頻項目,以產生與刪除k-項目集。 要注意的是,有些候選集是不必要的,因他們的子集合是非高頻的

13 候選集的產生與刪除(4) 產生候選集的方法 — Fk-1 ×Fk-1 法 圖 藉由合併一對高頻 (k-1)-項目集來產生與刪除候選k-項目集

14 支持度計算 支持度計算是用來判斷在apriori-gen 函數的候選 集刪除步驟中,留下來之每個候選集合的發生頻率
圖 列舉一筆交易t 中包含3 個項目的集合

15 使用雜湊樹做支持度計算 在支持度計算過程中,每一筆交易包含的項目集合 也會被雜湊至適合的桶子中
此方式取代交易中每一項目與每一候選集的比較, 而只將項目集合與其對應桶子中的候選集合做配對

16 計算的複雜度 Apriori 演算法的計算複雜度會被下列因素影響: 支持度門檻值 項目的數量(維度) 交易數量 平均交易寬度
1-高頻項目集的產生 候選集產生 支持度計算

17 規則產生 規則是從一個高頻項目集產生 所有這樣的規則必須滿足最低支持度門檻值
以信賴度為基礎之刪除(confidence-based pruning) Apriori 演算法的規則產生

18 使用信賴度來刪除關聯規則

19 高頻項目集的精簡表示方式(1) 最大高頻項目集:最大高頻項目集可被定義為一個 高頻項目集,因它的最近超集合(immediate supersets)沒有一個是高頻。 封閉項目集:項目集X 是封閉的,若它的最近超集 合與X 完全沒有相同的支持個數。 封閉高頻項目集:一項目集為封閉高頻項目集,若 它是封閉的且它的支持度大於或等於最小支持度。

20 高頻項目集的精簡表示方式(2) 最大高頻項目集

21 高頻項目集的精簡表示方式(3) 封閉高頻項目集

22 高頻項目集的精簡表示方式(4) 高頻項目集、最大高頻項目集與封閉高頻項目集之 間的關係

23 產生高頻項目集的替代方法 項目集晶格之走訪(traversal):
演繹法( General-to-Specific)與歸納法( Specific-to-General ) 等價類別(equivalence class) 廣度優先(breadth-first)與深度優先(depth- first) 交易資料集的表示方式 當在計算候選項目集的支持度時,交易資料集 的表示方式的選擇會影響I/O 成本

24 演繹法、歸納法以及雙向搜尋

25 等價類別:字首樹與字尾樹

26 廣度優先與深度優先

27 使用深度優先方法產生候選項目集

28 水準與垂直的資料格式

29 FP-Growth 演算法 FP-growth 演算法以不同的方法來發掘高頻項目集
不支持在Apriori 範例中的產生與測試(generate- and-test 使用一個稱為FP-tree 的壓縮資料結構來對資料集 做編碼,並從此結構中直接萃取出高頻項目集

30 FP-tree 的建構(1) FP-tree 是一種輸入資料的壓縮表示方式

31 FP-tree 的建構(2)

32 FP-Growth 演算法中的高頻項目集產生(1)
FP-growth 為產生高頻項目集的演算法, 在FP- tree 中以由下至上(bottom-up)的方式進行探索

33 FP-Growth 演算法中的高頻項目集產生(2)

34 FP-Growth 演算法中的高頻項目集產生(3)
FP-growth 利用各個擊破(divide-and-conquer) 策略將問題切割成多個小的子問題(subproblems ),以尋找特定結尾之所有高頻項目集

35 FP-Growth 演算法中的高頻項目集產生(4)

36 關聯樣式的評估 關聯分析演算法可產生大量可能的樣式(pattern) 可透過統計參數來建立 透過主觀參數來建立 視覺化
以模版為基礎之方法(template-based approach) 主觀興趣度測量指標(subjective interestingness measure)

37 客觀興趣測量(1) 客觀測量是一種資料驅動方式(data-driven),以 評估關聯樣式的品質,除了指定門檻值來過濾低品 質樣式之外,它是領域獨立(domain- independent)並且需要來自使用者最小的輸入 支持度-信賴度架構之限制:現有之關聯規則探勘 的建構,是依賴支持度和信賴度測量,以減少不感 興趣的樣式 興趣因素(interest factor) 興趣因素的限制

38 客觀興趣測量(2) 相關性分析 相關性分析的限制 IS 測量 IS 測量的限制 其他的客觀興趣測量 客觀測量中的一致性

39 客觀測量的特性(1) 反轉特性(inversion property):
反向特性:當交換f11 與f00,和f10 與f01 的高 頻個數時,若M 的值維持不變,則客觀測量M 在反向操作下是不變的。 null addition 特性 若測量值不會因為增加f00 而受影響,且在列 聯表中的所有其他高頻個數皆保持一樣,則在 null addition 操作下客觀測量M是不變的。

40 客觀測量的特性(2) 尺度特性(scaling property):
尺度不變性(scaling invariance property): 客觀測量M 在行/列尺度操作下是不變的 若M(T) = M(T’),其中T 是高頻個數(frequent counts)的列聯表 [ f11; f10; f01; f00 ],T’是尺 度高頻個數(scaled frequency counts)的列 聯表[k1k3 f11; k2k3 f10; k11k4 f01; k2k4 f00] 而k1, k2, k3, k4為正數。

41 偏態支持度分佈的影響 交叉支持樣式:交叉支持樣式為一項目集 X={i1,i2,…,ik},其支持度比率 是小於使用者指定之門檻值c h


Download ppt "第 6 章 關連分析: 基本概念和演算法      © 2008 台灣培生教育出版 (Pearson Education Taiwan)"

Similar presentations


Ads by Google