为了正常的体验网站,请在浏览器设置里面开启Javascript功能!

习题知识分享平台

2017-09-24 11页 doc 56KB 14阅读

用户头像

is_597436

暂无简介

举报
习题知识分享平台习题知识分享平台 資料探勘 期中作業 (1-7習題各三題) 班級,碩研資工一甲 學號,M97G0217 1 姓名,黃烱育 2 Chapter 1 簡介 習題 1-1 (a)不是欺騙,擅用關聯規則可以提升得到較好的利潤,透過消 費者購物 習慣及分析可以將其相關物品擺放相鄰位置,不僅 提升消費者購物慾望也可讓商家利潤提高造成雙贏局面。 (b)不是簡單的轉換,機器學習和統計資料分析工具,僅是個不 能處裡大量資料的資料分析系統,而資料庫系統僅能處裡資 料存取,所以它們皆不能真正執行資料探勘。然而資料探勘 ...
习题知识分享平台
习题知识分享平台 資料探勘 期中作業 (1-7習題各三題) 班級,碩研資工一甲 學號,M97G0217 1 姓名,黃烱育 2 Chapter 1 簡介 習題 1-1 (a)不是欺騙,擅用關聯規則可以提升得到較好的利潤,透過消 費者購物 習慣及分析可以將其相關物品擺放相鄰位置,不僅 提升消費者購物慾望也可讓商家利潤提高造成雙贏局面。 (b)不是簡單的轉換,機器學習和統計資料分析工具,僅是個不 能處裡大量資料的資料分析系統,而資料庫系統僅能處裡資 料存取,所以它們皆不能真正執行資料探勘。然而資料探勘 他是整合許多的科學方法,像是資料庫和資料倉儲、統計、 機器學習、高效能運算、圖形辨識、類神經網路、資料圖示、 資訊存取、影像與訊號處裡、空間與時間資料分析。 (c)資料庫技巧從最原始的檔案裡,發展到具有查詢與交易處裡 的資料庫管理系統,進一步發展的過程導致對有效力與有效 率的進階資料分析工具有更多的需求,這種需求是由於商業 與管理、政府監督、科學與工程、環境控管龐大資料成長的 結果。 (d)過程包含資料清除、資料整合、資料選取、資料轉換、資料 探勘、樣式評估、知識呈現。 3 習題 1-4 資料庫是含有組織中所有的資料和資訊未經過處理分類的資 料倉儲經過處理分類的 例如,7-11有許多分店,而其分店都有個別的資料庫系統。如果 7-11總公司要知道各分公司的庫存貨物是有困難的是,所以我們 可以透過資料倉儲來處裡這件事,資料倉儲是一個收集不同來源 的資料儲存,並將它們存成一致綱目,通常會儲存在同一個地方。 習題 1-9 (a) 工作相關資料設定。 (b) 探勘知識的類型。 (c) 背景知識。 (d) 有趣度量。 (e) 顯示發覺樣式知識呈現與顯示方法。 4 Chapter 2 資料前處理 習題2-4 (a) 均值= 29.85 中值= 25。 (b) 雙模式,在集合中出現最多的25和35皆出現4次。 (c) 41.5 (d) Q1 = 20,Q3 = 35 (e) Min = 13,Q1 = 20,mid = 25,Q3 = 35,Max = 70 (f) 80 70Q360Max50中值40 Min30 Q120 10 0 (g) q-q圖,圖將一個單變量的量分位與另一個相對應的量分 位互相比較。 量分位圖,顯示特定屬性的所有資料以及繪製量分位資訊。 5 習題 2-6 (a) 忽略這些值組。 (b) 利用人工方式填入遺失值。 (c) 利用全域常數,global constant,填入遺失值。 (d) 使用屬性均值來填入遺失值。 (e) 使用相同類別值組的屬性均值。 (f) 使用最有可能的值來填入遺失值。 習題 2-11 normalization 200 300 400 600 1000 min-max(0/1) 0 0.125 0.25 0.5 1 z-score 1.06 0.7 0.35 0.35 1.77 6 Chapter 3 資料倉儲與即時分析處理方法 習題 3-1 (a) 由於傳統資料庫使用包裝器和整合器來進行不同性質資料庫 整合,當使用者進行查詢,metadata dictionary必須將查詢轉換 為各種不同性質的查詢,再從各個查詢傳回的結果彙整成全域答 案集合,這種查詢導向的方法需要複雜的資訊過濾與整合過程, 並會競爭區域資源,對於頻繁查詢,這種做法會非常沒有效率, 而資料倉儲使用更新導向的方法,不同性質的資料來源是先進行 整合並存於資料倉儲,以變進行直接查詢與分析,這會使資料倉 儲有效率的整合不同性質的資料庫,同時資料倉儲的查詢不會影 響區域資源的處理,再者,資料倉儲能儲存與整合歷史資料並支 援複雜的多維度查詢,所以資料倉儲較為業界所喜愛,畢竟time is money。 (b) (i) 若需擷取詳細之資料以供決策者參考時。 (ii) 若只需在單一時間上做單一資料處理時。 7 習題3-2 (a) 雪片、事實星座與星網查詢模式。 雪片查詢模式, 雪片狀模式是星狀模式的延伸。如同星網模式,雪片模式 的架構也是在中間有一個事實#格#,而這個事實表格會與 維度表格相連。 與星網模式不同的地方是,每個維度並不一定只有一個維 度表格。在雪片模式的架構上,維度表格可以被延伸出去。 事實星座查詢模式, 事實星座模式是由星網模式延及雪片模式所延伸而成。在 這種模式中,不同的事實表可以透過一致性維度表格串連 在一起,這讓我們可以做跨越事實表格的分析。 星網查詢模式, 星網狀模式的架構是在中間有一個事實表格。這個事實表 格會與相 關的維度表格相連,而每個維度表格只與事實 表格相連。由於這種架構看起來像一顆星星,所被稱為星 網模式,在這種模式下,一個維度表格就代表一個線維度。 8 (b) 資料清除、轉換與更新(refresh)。 資料清除,找出資料的錯誤並盡力矯正。 資料轉換,進行不同資料格式轉換。 資料更新,將更新資料傳遞給資料倉儲。 (c) 企業昌儲、資料超市與虛擬倉儲。 企業昌儲,收集涵蓋整個組織的資訊,它對整個企業資訊進行整合,資料通常來自一個或多個操作系統或外部訊息供應者,而它的範圍是跨功能性的,它包含明細與整合性資料,而資料大小由幾個gigabyte到terabyte或更多。企業資料倉儲可用傳統大型電腦、超級伺服器或平行架構的平台來執行,它需要多方面的商業模型,且需要很多年來設計與執行。 資料超市,資料超市包含公司特定使用族群資料,他的範圍侷限於特定主題,例如侷限於客戶、項目與銷售,一般資料超市的資料都為總結資料。 虛擬倉儲,虛擬倉儲為一組在操作資料的觀點,為了查詢過程能有效率,僅有 部分的觀點能實施。虛擬倉儲容易製作,但它在操作資料庫中需要大量的資源。 9 習題3-6 (a) 星形綱目與雪片綱目相異之處, 兩者架構是在中間有一個事實表格,而這個事實表格會與 維度表格相連。 (b) 星行綱目與雪片綱目相異之處, 雪片綱目與星形綱目不同的地方是,每個維度並不一定只 有一個維度表格。在雪片綱目的架構中,維度表格可以被延 伸出去。 (c) 哪一種方法在實證上會較為有用,並說明其背後的原因, 雪片綱目相較於星形綱目最大的不同,是維度表會一直進 行正規化以便降低資料重覆性,這樣的表格在維護與儲存都 相當容易,但是這種節省相較於傳統事實資料表的大小事可 以忽略的。雪片綱目會降低資料瀏覽的有效性,因為在進行 查詢時我們需要更多的連結(join),因此系統的效率會受到影 響。雖然它可以降低重覆性,但是在資料倉儲的設定上並不 像星形綱目那麼普遍。 10 Chapter 4 資料方塊計算與資料產生 習題 4-2 (a) MultiWay :利用直接陣列位址法的傳統MOLAP方法,維度直透 過相對應陣列位址索引得之。因此它不能執行對值進行排 序的最佳化技巧。 (b) BUC:用於計算稀疏與冰山方塊,不同MultiWay,它使由頂點長 方體到基礎長方體往下的方式來建立方塊,並允許分享資 料分割成本,在建立過程可透過Apriori特性進行刪除。 (c) Star-Cubing:它整合由上而下與由下而上的計算,所以它可以探 索多維度聚合(同MultiWay)與Apriori特質的刪除(同BUC) 它利用星形圖的資料結構來執行無誤差壓縮來降低計算跟 空間需求。 條件 維度<8 (密集完整 維度=10 (高度 維度>100 (稀疏方塊) 計算方法 方塊) 斜篇) 最佳 普通 普通 MultiWay 普通 佳 佳 BUC 最佳 最佳 最佳 S-Cun\bing 11 習題 4-4 (a) (b) 總方塊記憶體大小,(1,000 * 1,000,000 * 100) * 4 =400,000,000,000 (bits) (c) AB平面,100 * 1,000,000 + 100 * 100 + 1,000,000 * 100 *4 =200,010,000 (bits) BC平面,100 * 1,000 + 100 * 100,000 + 1,000 * 100,000 *4 =440,400,000 (bits) AC平面,1,000,000 * 1,000 + 1,000,000 * 10 + 1,000 * 10 *4 =4,040,040,000 (bits) 記憶體大小排序(由小到大) AC平面 > BC平面 > AB平面 12 13 習題 4-7 使用 Star-Cubing 運算法則來計算冰山方塊,它整合由上而 下與由下而上的計算,所以它可以探索多維度聚合(如同 MultiWay)與Apriori特質的刪除(如同BUC)。它利用星形術的 資料結構來執行無誤差壓縮,用於降低計算與空間需求。 如上圖,它用於計算四維度的資料方塊,如果我們僅用由上 而下的方式,則標示刪除的長方體會被探索。考量共享維度來 刪除標示長方體,例:ABD/AB 代表AB為共享維度,透過共享 維度加速共享計算,因為在樹擴展之前我們會發現共享維度, 因此我們可以避免對他們進行重複計算,並且共享維度允許執 行像Apriori特性的刪除。 14 Chapter 5 頻繁樣式、關聯與相互關係的探勘 習題5-1 (a) 因為所有頻繁項目集中的子集其個別出現的個數必滿足頻繁項 目集所訂定的最小支持個數,固所有非空子集必為頻繁。 (b) If L={{M,O,N,K,E,Y},{M,O,N,E,Y},{M,O,N,E}} S={M,O,N,K} S’={M,O} ?S’與L連集的機率比S還高((P(l?S’)>=P(l?S))。 ?S’支持度必大於等於S。 (c) If L={{M,O,N,K,E,Y},{M,O,N,E,Y},{M,O,N,E}} S={M,O,N,K} S’={M,O} ?S’和L同時出現的機率比S還高((P(l|S’)>=P(l|S))。 ?S’信賴度必大於等於S。 15 習題5-2 FP-growth 這個方法藉由重複合併後置節點的方法來尋找最短頻繁樣式,這個方法大幅降低搜尋成本,學者研究顯示這個方法有效率且具可量度性,效率優於5.2.2節所描述的方法。 習題5-13 蝗蟲災害與天氣氣溫成負相關,即天氣越冷蝗蟲災害越容易發生,天 氣越暖化蝗蟲災害越不易發生。 16 Chapter 6 判別與預測 習題6-1 給予一個未知類別的值組X,我們利用X的屬性質,並沿著決策樹由根節點到葉節點就可進行判別,決策樹很容易轉變為判別規則。 習題6-2 (a) 為了解決過適的問題。 (b) 決策樹會有重複與複製的問題。 習題6-3 可以產生比較能信賴的樹,缺點是需要更大量的計算,所以沒有一種方法是比較優的,而是就所需要。 17 Chapter 7 分群分析 習題 7-2 1(a) m,(18,22,25,42,28,43,33,35,56,28),33f10 1,(18,33,22,33,25,33,42,33,28,33,43,33,33,33sf10 ,35,33,56,33,28,33),8.8 年齡平均絕對偏差 s,8.8f 22,3318,33(b) z,,,1.70 z,,,1.25 1f2f8.88.8 25,3342,33 z,,,0.91 z,,1.02 3f4f8.88.8 習題7-3 2222Euclidean distance , (22,20),(1,0),(42,36),(10,8), 6.71(a) Manhattan distance , 22-20,1,0,42,36,10,8,11(b) PPPP1/PMinkowski distance,(22,20,1,0,42,36,10,8) (c) Manhattan distance當p = 1: 代表 11111/1, (22,20,1,0,42,36,10,8),11 Euclidean distance當p = 2: 代表 22221/2, (22,20,1,0,42,36,10,8),6.71 18 習題7-7 k-means對於(a)(b) k-means的優點 k-means的缺點 (a) k-medoids 計算複雜度較低,且處裡龐不適用類別資料,易受雜 大資料時較具效率。 訊或離異值影響。 (b) 階層式AGNES 計算複雜度較低。 重選k個群組時,需重新 計算。 19
/
本文档为【习题知识分享平台】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。 本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。 网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。

历史搜索

    清空历史搜索