习题知识分享平台
資料探勘
期中作業
(1-7習題各三題)
班級,碩研資工一甲
學號,M97G0217
1
姓名,黃烱育
2
Chapter 1 簡介
習題 1-1
(a)不是欺騙,擅用關聯規則可以提升得到較好的利潤,透過消
費者購物 習慣及分析可以將其相關物品擺放相鄰位置,不僅
提升消費者購物慾望也可讓商家利潤提高造成雙贏局面。 (b)不是簡單的轉換,機器學習和統計資料分析工具,僅是個不
能處裡大量資料的資料分析系統,而資料庫系統僅能處裡資
料存取,所以它們皆不能真正執行資料探勘。然而資料探勘
他是整合許多的科學方法,像是資料庫和資料倉儲、統計、
機器學習、高效能運算、圖形辨識、類神經網路、資料圖示、
資訊存取、影像與訊號處裡、空間與時間資料分析。 (c)資料庫技巧從最原始的檔案裡,發展到具有查詢與交易處裡
的資料庫管理系統,進一步發展的過程導致對有效力與有效
率的進階資料分析工具有更多的需求,這種需求是由於商業
與管理、政府監督、科學與工程、環境控管龐大資料成長的
結果。
(d)過程包含資料清除、資料整合、資料選取、資料轉換、資料
探勘、樣式評估、知識呈現。
3
習題 1-4
資料庫是含有組織中所有的資料和資訊未經過處理分類的資
料倉儲經過處理分類的
例如,7-11有許多分店,而其分店都有個別的資料庫系統。如果
7-11總公司要知道各分公司的庫存貨物是有困難的是,所以我們
可以透過資料倉儲來處裡這件事,資料倉儲是一個收集不同來源
的資料儲存,並將它們存成一致綱目,通常會儲存在同一個地方。
習題 1-9
(a) 工作相關資料設定。
(b) 探勘知識的類型。
(c) 背景知識。
(d) 有趣度量。
(e) 顯示發覺樣式知識呈現與顯示方法。
4
Chapter 2 資料前處理
習題2-4
(a) 均值= 29.85 中值= 25。
(b) 雙模式,在集合中出現最多的25和35皆出現4次。
(c) 41.5
(d) Q1 = 20,Q3 = 35
(e) Min = 13,Q1 = 20,mid = 25,Q3 = 35,Max = 70
(f)
80
70Q360Max50中值40
Min30
Q120
10
0
(g) q-q圖,圖將一個單變量的量分位與另一個相對應的量分
位互相比較。
量分位圖,顯示特定屬性的所有資料以及繪製量分位資訊。
5
習題 2-6
(a) 忽略這些值組。
(b) 利用人工方式填入遺失值。
(c) 利用全域常數,global constant,填入遺失值。
(d) 使用屬性均值來填入遺失值。
(e) 使用相同類別值組的屬性均值。
(f) 使用最有可能的值來填入遺失值。
習題 2-11
normalization 200 300 400 600 1000 min-max(0/1) 0 0.125 0.25 0.5 1
z-score 1.06 0.7 0.35 0.35 1.77
6
Chapter 3 資料倉儲與即時分析處理方法 習題 3-1
(a) 由於傳統資料庫使用包裝器和整合器來進行不同性質資料庫
整合,當使用者進行查詢,metadata dictionary必須將查詢轉換
為各種不同性質的查詢,再從各個查詢傳回的結果彙整成全域答
案集合,這種查詢導向的方法需要複雜的資訊過濾與整合過程,
並會競爭區域資源,對於頻繁查詢,這種做法會非常沒有效率,
而資料倉儲使用更新導向的方法,不同性質的資料來源是先進行
整合並存於資料倉儲,以變進行直接查詢與分析,這會使資料倉
儲有效率的整合不同性質的資料庫,同時資料倉儲的查詢不會影
響區域資源的處理,再者,資料倉儲能儲存與整合歷史資料並支
援複雜的多維度查詢,所以資料倉儲較為業界所喜愛,畢竟time
is money。
(b)
(i) 若需擷取詳細之資料以供決策者參考時。
(ii) 若只需在單一時間上做單一資料處理時。
7
習題3-2
(a) 雪片、事實星座與星網查詢模式。
雪片查詢模式,
雪片狀模式是星狀模式的延伸。如同星網模式,雪片模式
的架構也是在中間有一個事實#
格#,而這個事實表格會與
維度表格相連。
與星網模式不同的地方是,每個維度並不一定只有一個維
度表格。在雪片模式的架構上,維度表格可以被延伸出去。 事實星座查詢模式,
事實星座模式是由星網模式延及雪片模式所延伸而成。在
這種模式中,不同的事實表可以透過一致性維度表格串連
在一起,這讓我們可以做跨越事實表格的分析。 星網查詢模式,
星網狀模式的架構是在中間有一個事實表格。這個事實表
格會與相 關的維度表格相連,而每個維度表格只與事實
表格相連。由於這種架構看起來像一顆星星,所被稱為星
網模式,在這種模式下,一個維度表格就代表一個線維度。
8
(b) 資料清除、轉換與更新(refresh)。
資料清除,找出資料的錯誤並盡力矯正。
資料轉換,進行不同資料格式轉換。
資料更新,將更新資料傳遞給資料倉儲。
(c) 企業昌儲、資料超市與虛擬倉儲。
企業昌儲,收集涵蓋整個組織的資訊,它對整個企業資訊進行整合,資料通常來自一個或多個操作系統或外部訊息供應者,而它的範圍是跨功能性的,它包含明細與整合性資料,而資料大小由幾個gigabyte到terabyte或更多。企業資料倉儲可用傳統大型電腦、超級伺服器或平行架構的平台來執行,它需要多方面的商業模型,且需要很多年來設計與執行。
資料超市,資料超市包含公司特定使用族群資料,他的範圍侷限於特定主題,例如侷限於客戶、項目與銷售,一般資料超市的資料都為總結資料。
虛擬倉儲,虛擬倉儲為一組在操作資料的觀點,為了查詢過程能有效率,僅有 部分的觀點能實施。虛擬倉儲容易製作,但它在操作資料庫中需要大量的資源。
9
習題3-6
(a) 星形綱目與雪片綱目相異之處,
兩者架構是在中間有一個事實表格,而這個事實表格會與
維度表格相連。
(b) 星行綱目與雪片綱目相異之處,
雪片綱目與星形綱目不同的地方是,每個維度並不一定只
有一個維度表格。在雪片綱目的架構中,維度表格可以被延
伸出去。
(c) 哪一種方法在實證上會較為有用,並說明其背後的原因,
雪片綱目相較於星形綱目最大的不同,是維度表會一直進
行正規化以便降低資料重覆性,這樣的表格在維護與儲存都
相當容易,但是這種節省相較於傳統事實資料表的大小事可
以忽略的。雪片綱目會降低資料瀏覽的有效性,因為在進行
查詢時我們需要更多的連結(join),因此系統的效率會受到影
響。雖然它可以降低重覆性,但是在資料倉儲的設定上並不
像星形綱目那麼普遍。
10
Chapter 4 資料方塊計算與資料產生 習題 4-2
(a) MultiWay :利用直接陣列位址法的傳統MOLAP方法,維度直透
過相對應陣列位址索引得之。因此它不能執行對值進行排
序的最佳化技巧。
(b) BUC:用於計算稀疏與冰山方塊,不同MultiWay,它使由頂點長
方體到基礎長方體往下的方式來建立方塊,並允許分享資
料分割成本,在建立過程可透過Apriori特性進行刪除。 (c) Star-Cubing:它整合由上而下與由下而上的計算,所以它可以探
索多維度聚合(同MultiWay)與Apriori特質的刪除(同BUC)
它利用星形圖的資料結構來執行無誤差壓縮來降低計算跟
空間需求。
條件 維度<8 (密集完整 維度=10 (高度 維度>100 (稀疏方塊) 計算方法 方塊) 斜篇)
最佳 普通 普通 MultiWay
普通 佳 佳 BUC
最佳 最佳 最佳 S-Cun\bing
11
習題 4-4
(a)
(b)
總方塊記憶體大小,(1,000 * 1,000,000 * 100) * 4
=400,000,000,000 (bits)
(c)
AB平面,100 * 1,000,000 + 100 * 100 + 1,000,000 * 100 *4
=200,010,000 (bits)
BC平面,100 * 1,000 + 100 * 100,000 + 1,000 * 100,000 *4
=440,400,000 (bits)
AC平面,1,000,000 * 1,000 + 1,000,000 * 10 + 1,000 * 10 *4
=4,040,040,000 (bits)
記憶體大小排序(由小到大)
AC平面 > BC平面 > AB平面
12
13
習題 4-7
使用 Star-Cubing 運算法則來計算冰山方塊,它整合由上而
下與由下而上的計算,所以它可以探索多維度聚合(如同
MultiWay)與Apriori特質的刪除(如同BUC)。它利用星形術的
資料結構來執行無誤差壓縮,用於降低計算與空間需求。
如上圖,它用於計算四維度的資料方塊,如果我們僅用由上
而下的方式,則標示刪除的長方體會被探索。考量共享維度來
刪除標示長方體,例:ABD/AB 代表AB為共享維度,透過共享
維度加速共享計算,因為在樹擴展之前我們會發現共享維度,
因此我們可以避免對他們進行重複計算,並且共享維度允許執
行像Apriori特性的刪除。
14
Chapter 5 頻繁樣式、關聯與相互關係的探勘 習題5-1
(a) 因為所有頻繁項目集中的子集其個別出現的個數必滿足頻繁項
目集所訂定的最小支持個數,固所有非空子集必為頻繁。 (b) If L={{M,O,N,K,E,Y},{M,O,N,E,Y},{M,O,N,E}}
S={M,O,N,K}
S’={M,O}
?S’與L連集的機率比S還高((P(l?S’)>=P(l?S))。
?S’支持度必大於等於S。
(c) If L={{M,O,N,K,E,Y},{M,O,N,E,Y},{M,O,N,E}}
S={M,O,N,K}
S’={M,O}
?S’和L同時出現的機率比S還高((P(l|S’)>=P(l|S))。
?S’信賴度必大於等於S。
15
習題5-2
FP-growth 這個方法藉由重複合併後置節點的方法來尋找最短頻繁樣式,這個方法大幅降低搜尋成本,學者研究顯示這個方法有效率且具可量度性,效率優於5.2.2節所描述的方法。
習題5-13
蝗蟲災害與天氣氣溫成負相關,即天氣越冷蝗蟲災害越容易發生,天
氣越暖化蝗蟲災害越不易發生。
16
Chapter 6 判別與預測 習題6-1
給予一個未知類別的值組X,我們利用X的屬性質,並沿著決策樹由根節點到葉節點就可進行判別,決策樹很容易轉變為判別規則。
習題6-2
(a) 為了解決過適的問題。
(b) 決策樹會有重複與複製的問題。
習題6-3
可以產生比較能信賴的樹,缺點是需要更大量的計算,所以沒有一種方法是比較優的,而是就所需要。
17
Chapter 7 分群分析
習題 7-2
1(a) m,(18,22,25,42,28,43,33,35,56,28),33f10
1,(18,33,22,33,25,33,42,33,28,33,43,33,33,33sf10
,35,33,56,33,28,33),8.8
年齡平均絕對偏差 s,8.8f
22,3318,33(b) z,,,1.70 z,,,1.25 1f2f8.88.8
25,3342,33 z,,,0.91 z,,1.02 3f4f8.88.8
習題7-3
2222Euclidean distance , (22,20),(1,0),(42,36),(10,8), 6.71(a)
Manhattan distance , 22-20,1,0,42,36,10,8,11(b)
PPPP1/PMinkowski distance,(22,20,1,0,42,36,10,8) (c)
Manhattan distance當p = 1: 代表
11111/1, (22,20,1,0,42,36,10,8),11
Euclidean distance當p = 2: 代表
22221/2, (22,20,1,0,42,36,10,8),6.71
18
習題7-7
k-means對於(a)(b) k-means的優點 k-means的缺點 (a) k-medoids 計算複雜度較低,且處裡龐不適用類別資料,易受雜
大資料時較具效率。 訊或離異值影響。 (b) 階層式AGNES 計算複雜度較低。 重選k個群組時,需重新
計算。
19