为了正常的体验网站,请在浏览器设置里面开启Javascript功能!

大一计算思维导论-数据分析及数据挖掘

2019-02-08 13页 doc 92KB 94阅读

用户头像

is_348501

暂无简介

举报
大一计算思维导论-数据分析及数据挖掘第8 章数据分析与数据挖掘 一、单选题 1. 某超市研究销售记录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的【】问题。 A:关联规则    B:聚类    C:分类    D:自然语言处理答案:A 2. 将原始数据进行集成、变换、维度规约、数值规约是【】步骤的任务。 A:频繁模式挖掘    B:分类和预测    C:数据预处理    D:数据流挖掘答案:C 3. 当不知道数据所带标签时,可以使用【】技术促使带同类标签的数据与带其他标签的数据相分离。 A:分类    B:聚类    C:关联分析    ...
大一计算思维导论-数据分析及数据挖掘
第8 章数据与数据挖掘 一、单选题 1. 某超市研究销售记录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的【】问题。 A:关联    B:聚类    C:分类    D:自然语言处理答案:A 2. 将原始数据进行集成、变换、维度规约、数值规约是【】步骤的任务。 A:频繁模式挖掘    B:分类和预测    C:数据预处理    D:数据流挖掘答案:C 3. 当不知道数据所带标签时,可以使用【】技术促使带同类标签的数据与带其他标签的数据相分离。 A:分类    B:聚类    C:关联分析    D:隐马尔可夫链答案:B 4. 级110人。则年级属性的众数是【】。 A:一年级    B:二年级    C:三年级    D:四年级答案:A 5. 建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值,这属于数据挖掘的【】任务。 A:根据内容检索    B:建模描述    C:预测建模    D:寻找模式和规则答案:C 6. 假设12个销售价格数据排序后为:5, 10, 11, 13, 15, 35, 50, 55, 72, 91, 204, 215,使用等频分箱法将它们划分成四个箱。则15在【】箱子内。 A:第一个    B:第二个    C:第三个    D:第四个答案:B 7. 假设12个销售价格数据排序后为:5, 10, 11, 13, 15, 35, 50, 55, 72, 91, 204, 215,使用等宽分箱法将它们划分成四个箱。则15在【】箱子里。 (最大值-最小值)/组数=跨度 A:第一个    B:第二个    C:第三个    D:第四个答案:A 8. 设X={1,2,3}是频繁项集,则可由X产生【】个关联规则。 列出非空子集 判断两两之间的关系 A:4    B:5    C:6    D:7 答案:C 9. 以下【】算法是聚类算法。 A:ID3    B:C4.5    C:K-Mean    D:Apriori答案:C 10. 以下【】算法是关联规则算法。 A:DBSCAN    B:C4.5    C:K-Mean    D:Apriori答案:D 二、多选题 1. 数据挖掘的预测建模任务主要包括【】大类问题。 A:分类    B:回归    C:模式发现    D:模式匹配 答案:AB 2. 以下【】学科和数据挖掘有密切联系。 A:统计学    B:计算机硬件    C:矿产挖掘    D:数据库技术答案:AD 3. 在现实世界的数据中,记录在某些属性上缺少值是常有的。描述处理该问题的各种方法有【】。 A:忽略记录                    B:使用属性的平均值填充空缺值 C:使用一个常量填充空缺值      D:使用最可能的值填充空缺值答案:ABCD 4. 对于数据挖掘中的原始数据,存在的问题有【】。 A:不一致    B:重复    C:不完整    D:含噪声    E:维度高答案:ABCDE 5. 下列属于有序数据的有【】。 A:时序数据    B:序列数据    C:空间数据    D:事务数据答案:ABC 三、分析 1. 假定给定的数据集的值已经分组为区间。区间和对应的频率如下: 年龄 频率 1~5 200 5~15 450 15~20 300 20~50 1500 50~80 700 80~110 44     计算数据的近似中位数值。 【解答】 先判定中位数区间:N=200+450+300+1500+700+44=3194; N/2=1597 ∵ 200+450+300=950<1597<2450=950+1500; ∴ 20~50 对应中位数区间。 我们有:L1=20,N=3194,(∑freq) l=950(中位数区间以前的数的和),freqmedian=1500(中位数区间),width=30,使用公式: ∴  median=32.94 岁。 2. 假定用于分析的数据包含属性 age。age 值(以递增序)是:13,15,16,16,19, 20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45, 46,52,70。请找出该组数据中的异常值。 【解答】 箱线图包含最小值、第一分位数(25%的数据)、第二分位数(中位数)、第三分位数 (75%的数据)、最大值五个数。 最小值:min = 13 数据个数:n=27 样本数据为奇数,中位数位置公式为:(n+1)/2= 14,第二分位数(中位数),即:Q2 = median = 25 第一分位数:位置在(n+1)/4=7处。故,Q1(中位数一下的中位数)=20 第三分位数:位置在3*(n+1)/4处。故,Q3(中位数以上的中位数)=35 最大值:70 Whisker下限:Q1-1.5*(Q3-Q1)=20-1.5*15 = -2.5 Whisker上限:Q3+1.5*(Q3-Q1)=35+1.5*15 = 57.5 因此找出大于Whisker上限的异常点:70 3. 假设12个销售价格已经排序如下:5,10,11,13,15,35,50,55,72,91,204, 215。分别使用如下方法将其划分成三个箱。 (a)等频(等深)划分。 (b)等宽划分。 (c)聚类(使用两个数之间的最大间隙进行划分)。 【解答】 等频法 等宽法   聚类法 每桶深:N/3 = 4 每桶宽:(215-5)/3 = 70   2个最大间隙 bin1 5,10,11,13 bin2 15,35,50,55 bin3 72,91,204,215 bin1 5,10,11,13,15,35,50,55,72 bin2 91 bin3 204,215 bin1 bin2 bin3 5,10,11,13,15 35,50,55,72,91 204,215         4. 邮局分拣包裹。见下。求包裹的平均重量。 序号 每包重量 包数 1 96-98 2 2 98-100 3 3 100-102 34 4 102-104 7 5 104-106 4       【解答】 序号 每包重量 组中值 包数 总重量 1 96-98 97 2 194 2 98-100 99 3 297 3 100-102 101 34 3434 4 102-104 103 7 721 5 104-106 105 4 420       50 5066     平均重量: = 5066/50 = 101.32           5. 清华跳水队选拔选手参加全国大学生体育运动会,甲乙二人现有的训练成绩如下表所示,如果想带成绩较稳定的队员参加比赛,试问该带谁参赛呢?   1 2 3 4 5 6 7 8 9 10 甲 9.7 8.6 9.6 8.6 7.9 9.6 9.3 8.9 9.6 9.2 乙 9.4 9.5 8.5 9.5 9.1 9.2 9 8.6 8.8 9.6                       【提示】:无论是差,还是方差,都是带量纲的,也就是说有计量单位。计量单位不同的两组数据,不能直接比较其离散程度。为此需要求离散系数,公式为:标准差 / 平均值 【解答】 2 标准差为方差的平方根,方差公式为: 甲的均值为:(9.7+8.6+9.6+8.6+7.9+9.6+9.3+8.9+9.6+9.2)/10 = 9.1 乙的均值为:(9.4+9.5+8.5+9.5+9.1+9.2+9+8.6+8.8+9.6)/10 = 9.12   1 2 3 4 5 6 7 8 9 10   甲 9.7 8.6 9.6 8.6 7.9 9.6 9.3 8.9 9.6 9.2 9.1(均值) 离差 0.6 -0.5 0.5 -0.5 -1.2 0.5 0.2 -0.2 0.5 0.1   离差平方 0.36 0.25 0.25 0.25 1.44 0.25 0.04 0.04 0.25 0.01 3.14(和) 乙 9.4 9.5 8.5 9.5 9.1 9.2 9 8.6 8.8 9.6 9.12(均值) 离差 0.28 0.38 -0.62 0.38 -0.02 0.08 -0.12 -0.52 -0.32 0.48   离差平方 0.08 0.14 0.38 0.14 0.00 0.01 0.01 0.27 0.10 0.23 1.38(和)                         甲的方差为:离差平方和 / n = 3.14/10 = 0.314 乙的方差为:离差平方和 / n = 1.38/10 = 0.138 甲的离散系数为: 乙的离散系数为: 由于甲的离散系数比乙的离散系数大,故乙比甲更稳定,故应选派乙参赛。 6. 下表给出了一组年薪数据,其中X表示大学毕业后工作的年数,而Y表示对应的收入。散点图如下图,从散点图可以看出这些数据暗示着X和Y之间存在着线性关系,现在请你用一元线性回归预测具有10年工作经验的大学毕业生的年薪为多少? X(年) Y(千) 3 30 8 57 9 64 13 72 3 36 6 43 11 59 21 90 1 20 16 83         【提示】:设线性回归方程公式为??=??+??x,计算回归系数a、b 公式为: 。 【解答】计算??? = 9.1,??? = 55.4。将值代入公式,得到: b= a=55.4-3.5*9.1=23.6 因此,回归方程为y=23.6+3.5X。 使用该方程,我们可以预测有10年工作经验的大学毕业生的年薪为58.6(千) 7. 数据库有 5 个事物。设最小支持度min_sup=60%,最小置信度min_conf=80% ,请你用Apriori算法计算关联规则。 TID 购买的商品 T100 { M, O, N, K, E, Y } T200 { D, O, N, K, E, Y } T300 { M, A, K, E } T400 { M, U, C, K, Y } T500 { C, O, O, K, I, E }     【解答】 商品总共有11种:A,C,D,E,I,K,M,N,O,U,Y。事务5件,最小支持度为60%,最小支持度 计数为5 * 60% = 3。 候选1-项集C1  频繁1-项集L1  候选2-项集C2  频繁2-项集L2 A 1  E 4  EK  4  EK  4 C 2  K 5  EM  2  EO  3 D 1  M 3  EO  3  KM  3 E 4  O 3  EY  2  KO  3 I 1  Y 3  KM  3  KY  3 K 5      KO  3 M 3      KY  3 N 2      MO  1 O 3      MY  2 U 1      OY  2 Y 3 -----------------------------------------------------------------------------  候选3-项集频繁3-项集 EKO 3  EKO  3 EKY 2 min_conf = 80% 子集:EK、EO、OK、E、K、O 规则:EK→O 3/4 = 75%  EO→K 3/3 = 100%  OK→E 3/3 = 100%      E→KO 3/4 = 75%  K→EO 3/5 = 60%  O→EK 3/3 = 100%有效规则:1)E,O→K min_sup = 60%,min_conf = 100%          2)O,K→E min_sup = 60%,min_conf = 100% 3)O→EK    min_sup = 60%, min_conf = 100%。 8. 下表由雇员数据库的训练数据组成。数据已泛化。例如,age “31…35”表示年龄在 31~35 之间。对于给定的行,count表示 department,status,age和salary 在该行具有给定值的元组数。 status    age    salary sales    senior     31…35     46K…50K     30 sales    junior     26…30     26K…30K     40 sales    junior     31…35     31K…35K     40 systems    junior     21…25     46K…50K     20 systems    senio r     31…35     66K…70K     5 systems    junior     26…30     46K…50K     3 systems    senio r     41…45     66K…70K     3 marketing    senior     36…40     46K…50K     10 marketing    junior     31…35     41K…45K     4 secretary    senior     46…50     36K…40K     4 secretary    junior     26…30     26K…30K     6 问:给定一个数据元组,它的属性 department,age 和 salary 的值分别为 “systems”, “26…30”,和“46K…50K”。该元组 status 的朴素贝叶斯分类是什么? 【解答】 ,status的属性值为:{junior, senior}。 设元组的各个属性之间相互独立,所以先求每个属性的类条件概率: P(systems|junior)=(20+3)/(40+40+20+3+4+6)=23/113; P(26…30|junior)=(40+3+6)/113=49/113;P(46K-50K|junior)=(20+3)/113=23/113; ∵ X=(department=system, age=26 …30,salary=46K…50K); ∴ P(X|junior)=P(systems|junior)P(26…30|junior)P(46K-50K|junior) =23×49×23/1133=25921/1442897=0.01796 ; P(systems|senior)= (8/31)*(31/165)/(52/165)=8/52; P(26…30|senior)=(0)/52=0; P(46K-50K|senior)=(30+10)/52=40/52; ∵ X=(department=system, age=26 …30,salary=46K…50K); ∴ P(X|senior)=P(systems|senio r)P(26-30|senior)P(46K-50K|senior)=0; ∵ P(junio r)=113/165=0.68 ; ∵ P(senio r)=52/165=0.32; ∴ P(X|junior)P(junior)=0.01796×0.68=0.0122128 P(X|senior)P(senio r)=0×0.32=0; 所以:朴素贝叶斯分类器将 X 分到 junior 类。
/
本文档为【大一计算思维导论-数据分析及数据挖掘】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。 本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。 网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。

历史搜索

    清空历史搜索