习题知识分享平台下载_Word模板_11

is_597436

暂无简介

习题知识分享平台习题知识分享平台資料探勘期中作業 (1-7習題各三題) 班級,碩研資工一甲學號,M97G0217 1 姓名,黃烱育 2 Chapter 1 簡介習題 1-1 (a)不是欺騙,擅用關聯規則可以提升得到較好的利潤,透過消費者購物習慣及分析可以將其相關物品擺放相鄰位置,不僅提升消費者購物慾望也可讓商家利潤提高造成雙贏局面。 (b)不是簡單的轉換,機器學習和統計資料分析工具,僅是個不能處裡大量資料的資料分析系統,而資料庫系統僅能處裡資料存取,所以它們皆不能真正執行資料探勘。然而資料探勘 ...

习题知识分享平台資料探勘期中作業 (1-7習題各三題) 班級,碩研資工一甲學號,M97G0217 1 姓名,黃烱育 2 Chapter 1 簡介習題 1-1 (a)不是欺騙,擅用關聯規則可以提升得到較好的利潤,透過消費者購物習慣及分析可以將其相關物品擺放相鄰位置,不僅提升消費者購物慾望也可讓商家利潤提高造成雙贏局面。 (b)不是簡單的轉換,機器學習和統計資料分析工具,僅是個不能處裡大量資料的資料分析系統,而資料庫系統僅能處裡資料存取,所以它們皆不能真正執行資料探勘。然而資料探勘他是整合許多的科學方法,像是資料庫和資料倉儲、統計、機器學習、高效能運算、圖形辨識、類神經網路、資料圖示、資訊存取、影像與訊號處裡、空間與時間資料分析。 (c)資料庫技巧從最原始的檔案裡,發展到具有查詢與交易處裡的資料庫管理系統,進一步發展的過程導致對有效力與有效率的進階資料分析工具有更多的需求,這種需求是由於商業與管理、政府監督、科學與工程、環境控管龐大資料成長的結果。 (d)過程包含資料清除、資料整合、資料選取、資料轉換、資料探勘、樣式評估、知識呈現。 3 習題 1-4 資料庫是含有組織中所有的資料和資訊未經過處理分類的資料倉儲經過處理分類的例如,7-11有許多分店,而其分店都有個別的資料庫系統。如果 7-11總公司要知道各分公司的庫存貨物是有困難的是,所以我們可以透過資料倉儲來處裡這件事,資料倉儲是一個收集不同來源的資料儲存,並將它們存成一致綱目,通常會儲存在同一個地方。習題 1-9 (a) 工作相關資料設定。 (b) 探勘知識的類型。 (c) 背景知識。 (d) 有趣度量。 (e) 顯示發覺樣式知識呈現與顯示方法。 4 Chapter 2 資料前處理習題2-4 (a) 均值= 29.85 中值= 25。 (b) 雙模式,在集合中出現最多的25和35皆出現4次。 (c) 41.5 (d) Q1 = 20,Q3 = 35 (e) Min = 13,Q1 = 20,mid = 25,Q3 = 35,Max = 70 (f) 80 70Q360Max50中值40 Min30 Q120 10 0 (g) q-q圖,圖將一個單變量的量分位與另一個相對應的量分位互相比較。量分位圖,顯示特定屬性的所有資料以及繪製量分位資訊。 5 習題 2-6 (a) 忽略這些值組。 (b) 利用人工方式填入遺失值。 (c) 利用全域常數,global constant,填入遺失值。 (d) 使用屬性均值來填入遺失值。 (e) 使用相同類別值組的屬性均值。 (f) 使用最有可能的值來填入遺失值。習題 2-11 normalization 200 300 400 600 1000 min-max(0/1) 0 0.125 0.25 0.5 1 z-score 1.06 0.7 0.35 0.35 1.77 6 Chapter 3 資料倉儲與即時分析處理方法習題 3-1 (a) 由於傳統資料庫使用包裝器和整合器來進行不同性質資料庫整合,當使用者進行查詢,metadata dictionary必須將查詢轉換為各種不同性質的查詢,再從各個查詢傳回的結果彙整成全域答案集合,這種查詢導向的方法需要複雜的資訊過濾與整合過程, 並會競爭區域資源,對於頻繁查詢,這種做法會非常沒有效率, 而資料倉儲使用更新導向的方法,不同性質的資料來源是先進行整合並存於資料倉儲,以變進行直接查詢與分析,這會使資料倉儲有效率的整合不同性質的資料庫,同時資料倉儲的查詢不會影響區域資源的處理,再者,資料倉儲能儲存與整合歷史資料並支援複雜的多維度查詢,所以資料倉儲較為業界所喜愛,畢竟time is money。 (b) (i) 若需擷取詳細之資料以供決策者參考時。 (ii) 若只需在單一時間上做單一資料處理時。 7 習題3-2 (a) 雪片、事實星座與星網查詢模式。雪片查詢模式, 雪片狀模式是星狀模式的延伸。如同星網模式,雪片模式的架構也是在中間有一個事實#

表

关于同志近三年现实表现材料材料类招标技术评分表图表与交易pdf 视力表打印pdf 用图表说话 pdf

格#,而這個事實表格會與維度表格相連。與星網模式不同的地方是,每個維度並不一定只有一個維度表格。在雪片模式的架構上,維度表格可以被延伸出去。事實星座查詢模式, 事實星座模式是由星網模式延及雪片模式所延伸而成。在這種模式中,不同的事實表可以透過一致性維度表格串連在一起,這讓我們可以做跨越事實表格的分析。星網查詢模式, 星網狀模式的架構是在中間有一個事實表格。這個事實表格會與相關的維度表格相連,而每個維度表格只與事實表格相連。由於這種架構看起來像一顆星星,所被稱為星網模式,在這種模式下,一個維度表格就代表一個線維度。 8 (b) 資料清除、轉換與更新(refresh)。資料清除,找出資料的錯誤並盡力矯正。資料轉換,進行不同資料格式轉換。資料更新,將更新資料傳遞給資料倉儲。 (c) 企業昌儲、資料超市與虛擬倉儲。企業昌儲,收集涵蓋整個組織的資訊,它對整個企業資訊進行整合,資料通常來自一個或多個操作系統或外部訊息供應者,而它的範圍是跨功能性的,它包含明細與整合性資料,而資料大小由幾個gigabyte到terabyte或更多。企業資料倉儲可用傳統大型電腦、超級伺服器或平行架構的平台來執行,它需要多方面的商業模型,且需要很多年來設計與執行。資料超市,資料超市包含公司特定使用族群資料,他的範圍侷限於特定主題,例如侷限於客戶、項目與銷售,一般資料超市的資料都為總結資料。虛擬倉儲,虛擬倉儲為一組在操作資料的觀點,為了查詢過程能有效率,僅有部分的觀點能實施。虛擬倉儲容易製作,但它在操作資料庫中需要大量的資源。 9 習題3-6 (a) 星形綱目與雪片綱目相異之處, 兩者架構是在中間有一個事實表格,而這個事實表格會與維度表格相連。 (b) 星行綱目與雪片綱目相異之處, 雪片綱目與星形綱目不同的地方是,每個維度並不一定只有一個維度表格。在雪片綱目的架構中,維度表格可以被延伸出去。 (c) 哪一種方法在實證上會較為有用,並說明其背後的原因, 雪片綱目相較於星形綱目最大的不同,是維度表會一直進行正規化以便降低資料重覆性,這樣的表格在維護與儲存都相當容易,但是這種節省相較於傳統事實資料表的大小事可以忽略的。雪片綱目會降低資料瀏覽的有效性,因為在進行查詢時我們需要更多的連結(join),因此系統的效率會受到影響。雖然它可以降低重覆性,但是在資料倉儲的設定上並不像星形綱目那麼普遍。 10 Chapter 4 資料方塊計算與資料產生習題 4-2 (a) MultiWay :利用直接陣列位址法的傳統MOLAP方法,維度直透過相對應陣列位址索引得之。因此它不能執行對值進行排序的最佳化技巧。 (b) BUC:用於計算稀疏與冰山方塊,不同MultiWay,它使由頂點長方體到基礎長方體往下的方式來建立方塊,並允許分享資料分割成本,在建立過程可透過Apriori特性進行刪除。 (c) Star-Cubing:它整合由上而下與由下而上的計算,所以它可以探索多維度聚合(同MultiWay)與Apriori特質的刪除(同BUC) 它利用星形圖的資料結構來執行無誤差壓縮來降低計算跟空間需求。條件維度<8 (密集完整維度=10 (高度維度>100 (稀疏方塊) 計算方法方塊) 斜篇) 最佳普通普通 MultiWay 普通佳佳 BUC 最佳最佳最佳 S-Cun\bing 11 習題 4-4 (a) (b) 總方塊記憶體大小,(1,000 * 1,000,000 * 100) * 4 =400,000,000,000 (bits) (c) AB平面,100 * 1,000,000 + 100 * 100 + 1,000,000 * 100 *4 =200,010,000 (bits) BC平面,100 * 1,000 + 100 * 100,000 + 1,000 * 100,000 *4 =440,400,000 (bits) AC平面,1,000,000 * 1,000 + 1,000,000 * 10 + 1,000 * 10 *4 =4,040,040,000 (bits) 記憶體大小排序(由小到大) AC平面 > BC平面 > AB平面 12 13 習題 4-7 使用 Star-Cubing 運算法則來計算冰山方塊,它整合由上而下與由下而上的計算,所以它可以探索多維度聚合(如同 MultiWay)與Apriori特質的刪除(如同BUC)。它利用星形術的資料結構來執行無誤差壓縮,用於降低計算與空間需求。如上圖,它用於計算四維度的資料方塊,如果我們僅用由上而下的方式,則標示刪除的長方體會被探索。考量共享維度來刪除標示長方體,例:ABD/AB 代表AB為共享維度,透過共享維度加速共享計算,因為在樹擴展之前我們會發現共享維度, 因此我們可以避免對他們進行重複計算,並且共享維度允許執行像Apriori特性的刪除。 14 Chapter 5 頻繁樣式、關聯與相互關係的探勘習題5-1 (a) 因為所有頻繁項目集中的子集其個別出現的個數必滿足頻繁項目集所訂定的最小支持個數,固所有非空子集必為頻繁。 (b) If L={{M,O,N,K,E,Y},{M,O,N,E,Y},{M,O,N,E}} S={M,O,N,K} S’={M,O} ?S’與L連集的機率比S還高((P(l?S’)>=P(l?S))。 ?S’支持度必大於等於S。 (c) If L={{M,O,N,K,E,Y},{M,O,N,E,Y},{M,O,N,E}} S={M,O,N,K} S’={M,O} ?S’和L同時出現的機率比S還高((P(l|S’)>=P(l|S))。 ?S’信賴度必大於等於S。 15 習題5-2 FP-growth 這個方法藉由重複合併後置節點的方法來尋找最短頻繁樣式,這個方法大幅降低搜尋成本,學者研究顯示這個方法有效率且具可量度性,效率優於5.2.2節所描述的方法。習題5-13 蝗蟲災害與天氣氣溫成負相關,即天氣越冷蝗蟲災害越容易發生,天氣越暖化蝗蟲災害越不易發生。 16 Chapter 6 判別與預測習題6-1 給予一個未知類別的值組X,我們利用X的屬性質,並沿著決策樹由根節點到葉節點就可進行判別,決策樹很容易轉變為判別規則。習題6-2 (a) 為了解決過適的問題。 (b) 決策樹會有重複與複製的問題。習題6-3 可以產生比較能信賴的樹,缺點是需要更大量的計算,所以沒有一種方法是比較優的,而是就所需要。 17 Chapter 7 分群分析習題 7-2 1(a) m,(18，22，25，42，28，43，33，35，56，28),33f10 1,(18,33，22,33，25,33，42,33，28,33，43,33，33,33sf10 ，35,33，56,33，28,33),8.8 年齡平均絕對偏差 s,8.8f 22,3318,33(b) z,,,1.70 z,,,1.25 1f2f8.88.8 25,3342,33 z,,,0.91 z,,1.02 3f4f8.88.8 習題7-3 2222Euclidean distance , (22,20)，(1,0)，(42,36)，(10,8), 6.71(a) Manhattan distance , 22-20，1,0，42,36，10,8,11(b) PPPP1/PMinkowski distance,(22,20，1,0，42,36，10,8) (c) Manhattan distance當p = 1: 代表 11111/1, (22,20，1,0，42,36，10,8),11 Euclidean distance當p = 2: 代表 22221/2, (22,20，1,0，42,36，10,8),6.71 18 習題7-7 k-means對於(a)(b) k-means的優點 k-means的缺點 (a) k-medoids 計算複雜度較低,且處裡龐不適用類別資料,易受雜大資料時較具效率。訊或離異值影響。 (b) 階層式AGNES 計算複雜度較低。重選k個群組時,需重新計算。 19

本文档为【习题知识分享平台】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。

习题知识分享平台

热门搜索

历史搜索