第8 章数据
与数据挖掘
一、单选题
1. 某超市研究销售记录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的【】问题。
A:关联
B:聚类 C:分类 D:自然语言处理答案:A
2. 将原始数据进行集成、变换、维度规约、数值规约是【】步骤的任务。
A:频繁模式挖掘 B:分类和预测 C:数据预处理 D:数据流挖掘答案:C
3. 当不知道数据所带标签时,可以使用【】技术促使带同类标签的数据与带其他标签的数据相分离。
A:分类 B:聚类 C:关联分析 D:隐马尔可夫链答案:B
4.
级110人。则年级属性的众数是【】。
A:一年级 B:二年级 C:三年级 D:四年级答案:A
5. 建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值,这属于数据挖掘的【】任务。
A:根据内容检索 B:建模描述 C:预测建模 D:寻找模式和规则答案:C
6. 假设12个销售价格数据排序后为:5, 10, 11, 13, 15, 35, 50, 55, 72, 91, 204, 215,使用等频分箱法将它们划分成四个箱。则15在【】箱子内。
A:第一个 B:第二个 C:第三个 D:第四个答案:B
7. 假设12个销售价格数据排序后为:5, 10, 11, 13, 15, 35, 50, 55, 72, 91, 204, 215,使用等宽分箱法将它们划分成四个箱。则15在【】箱子里。
(最大值-最小值)/组数=跨度
A:第一个 B:第二个 C:第三个 D:第四个答案:A
8. 设X={1,2,3}是频繁项集,则可由X产生【】个关联规则。
列出非空子集
判断两两之间的关系
A:4 B:5 C:6 D:7 答案:C
9. 以下【】算法是聚类算法。
A:ID3 B:C4.5 C:K-Mean D:Apriori答案:C
10. 以下【】算法是关联规则算法。
A:DBSCAN B:C4.5 C:K-Mean D:Apriori答案:D 二、多选题
1. 数据挖掘的预测建模任务主要包括【】大类问题。
A:分类 B:回归 C:模式发现 D:模式匹配
答案:AB
2. 以下【】学科和数据挖掘有密切联系。
A:统计学 B:计算机硬件 C:矿产挖掘 D:数据库技术答案:AD
3. 在现实世界的数据中,记录在某些属性上缺少值是常有的。描述处理该问题的各种方法有【】。
A:忽略记录 B:使用属性的平均值填充空缺值 C:使用一个常量填充空缺值 D:使用最可能的值填充空缺值答案:ABCD
4. 对于数据挖掘中的原始数据,存在的问题有【】。
A:不一致 B:重复 C:不完整 D:含噪声 E:维度高答案:ABCDE
5. 下列属于有序数据的有【】。
A:时序数据 B:序列数据 C:空间数据 D:事务数据答案:ABC
三、分析
1. 假定给定的数据集的值已经分组为区间。区间和对应的频率如下:
年龄
频率
1~5
200
5~15
450
15~20
300
20~50
1500
50~80
700
80~110
44
计算数据的近似中位数值。
【解答】
先判定中位数区间:N=200+450+300+1500+700+44=3194;
N/2=1597
∵ 200+450+300=950<1597<2450=950+1500;
∴ 20~50 对应中位数区间。
我们有:L1=20,N=3194,(∑freq) l=950(中位数区间以前的数的和),freqmedian=1500(中位数区间),width=30,使用公式:
∴ median=32.94 岁。
2. 假定用于分析的数据包含属性 age。age 值(以递增序)是:13,15,16,16,19, 20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45, 46,52,70。请找出该组数据中的异常值。
【解答】
箱线图包含最小值、第一分位数(25%的数据)、第二分位数(中位数)、第三分位数
(75%的数据)、最大值五个数。
最小值:min = 13 数据个数:n=27
样本数据为奇数,中位数位置公式为:(n+1)/2= 14,第二分位数(中位数),即:Q2 = median = 25
第一分位数:位置在(n+1)/4=7处。故,Q1(中位数一下的中位数)=20 第三分位数:位置在3*(n+1)/4处。故,Q3(中位数以上的中位数)=35 最大值:70
Whisker下限:Q1-1.5*(Q3-Q1)=20-1.5*15 = -2.5 Whisker上限:Q3+1.5*(Q3-Q1)=35+1.5*15 = 57.5 因此找出大于Whisker上限的异常点:70
3. 假设12个销售价格已经排序如下:5,10,11,13,15,35,50,55,72,91,204,
215。分别使用如下方法将其划分成三个箱。
(a)等频(等深)划分。
(b)等宽划分。
(c)聚类(使用两个数之间的最大间隙进行划分)。
【解答】
等频法
等宽法
聚类法
每桶深:N/3 = 4
每桶宽:(215-5)/3 = 70
2个最大间隙
bin1 5,10,11,13 bin2 15,35,50,55 bin3 72,91,204,215
bin1 5,10,11,13,15,35,50,55,72
bin2 91
bin3 204,215
bin1 bin2 bin3
5,10,11,13,15
35,50,55,72,91
204,215
4. 邮局分拣包裹。见下
。求包裹的平均重量。
序号
每包重量
包数
1
96-98
2
2
98-100
3
3
100-102
34
4
102-104
7
5
104-106
4
【解答】
序号
每包重量
组中值
包数
总重量
1
96-98
97
2
194
2
98-100
99
3
297
3
100-102
101
34
3434
4
102-104
103
7
721
5
104-106
105
4
420
50
5066
平均重量:
= 5066/50 = 101.32
5. 清华跳水队选拔选手参加全国大学生体育运动会,甲乙二人现有的训练成绩如下表所示,如果想带成绩较稳定的队员参加比赛,试问该带谁参赛呢?
1
2
3
4
5
6
7
8
9
10
甲
9.7
8.6
9.6
8.6
7.9
9.6
9.3
8.9
9.6
9.2
乙
9.4
9.5
8.5
9.5
9.1
9.2
9
8.6
8.8
9.6
【提示】:无论是
差,还是方差,都是带量纲的,也就是说有计量单位。计量单位不同的两组数据,不能直接比较其离散程度。为此需要求离散系数,公式为:标准差 / 平均值
【解答】
2 标准差为方差的平方根,方差公式为:
甲的均值为:(9.7+8.6+9.6+8.6+7.9+9.6+9.3+8.9+9.6+9.2)/10 = 9.1 乙的均值为:(9.4+9.5+8.5+9.5+9.1+9.2+9+8.6+8.8+9.6)/10 = 9.12
1
2
3
4
5
6
7
8
9
10
甲
9.7
8.6
9.6
8.6
7.9
9.6
9.3
8.9
9.6
9.2
9.1(均值)
离差
0.6
-0.5
0.5
-0.5
-1.2
0.5
0.2
-0.2
0.5
0.1
离差平方
0.36
0.25
0.25
0.25
1.44
0.25
0.04
0.04
0.25
0.01
3.14(和)
乙
9.4
9.5
8.5
9.5
9.1
9.2
9
8.6
8.8
9.6
9.12(均值)
离差
0.28
0.38
-0.62
0.38
-0.02
0.08
-0.12
-0.52
-0.32
0.48
离差平方
0.08
0.14
0.38
0.14
0.00
0.01
0.01
0.27
0.10
0.23
1.38(和)
甲的方差为:离差平方和 / n = 3.14/10 = 0.314 乙的方差为:离差平方和 / n = 1.38/10 = 0.138
甲的离散系数为:
乙的离散系数为:
由于甲的离散系数比乙的离散系数大,故乙比甲更稳定,故应选派乙参赛。
6. 下表给出了一组年薪数据,其中X表示大学毕业后工作的年数,而Y表示对应的收入。散点图如下图,从散点图可以看出这些数据暗示着X和Y之间存在着线性关系,现在请你用一元线性回归预测具有10年工作经验的大学毕业生的年薪为多少?
X(年)
Y(千)
3
30
8
57
9
64
13
72
3
36
6
43
11
59
21
90
1
20
16
83
【提示】:设线性回归方程公式为??=??+??x,计算回归系数a、b 公式为:
。
【解答】计算??? = 9.1,??? = 55.4。将值代入公式,得到:
b=
a=55.4-3.5*9.1=23.6 因此,回归方程为y=23.6+3.5X。
使用该方程,我们可以预测有10年工作经验的大学毕业生的年薪为58.6(千)
7. 数据库有 5 个事物。设最小支持度min_sup=60%,最小置信度min_conf=80% ,请你用Apriori算法计算关联规则。
TID
购买的商品
T100
{ M, O, N, K, E, Y }
T200
{ D, O, N, K, E, Y }
T300
{ M, A, K, E }
T400
{ M, U, C, K, Y }
T500
{ C, O, O, K, I, E }
【解答】
商品总共有11种:A,C,D,E,I,K,M,N,O,U,Y。事务5件,最小支持度为60%,最小支持度
计数为5 * 60% = 3。
候选1-项集C1 频繁1-项集L1 候选2-项集C2 频繁2-项集L2
A 1 E 4 EK 4 EK 4
C 2 K 5 EM 2 EO 3
D 1 M 3 EO 3 KM 3
E 4 O 3 EY 2 KO 3
I 1 Y 3 KM 3 KY 3
K 5 KO 3
M 3 KY 3
N 2 MO 1
O 3 MY 2 U 1 OY 2
Y 3
----------------------------------------------------------------------------- 候选3-项集频繁3-项集
EKO 3 EKO 3
EKY 2
min_conf = 80%
子集:EK、EO、OK、E、K、O
规则:EK→O 3/4 = 75% EO→K 3/3 = 100% OK→E 3/3 = 100% E→KO 3/4 = 75% K→EO 3/5 = 60% O→EK 3/3 = 100%有效规则:1)E,O→K min_sup = 60%,min_conf = 100% 2)O,K→E min_sup = 60%,min_conf = 100%
3)O→EK min_sup = 60%, min_conf = 100%。
8. 下表由雇员数据库的训练数据组成。数据已泛化。例如,age “31…35”表示年龄在 31~35 之间。对于给定的行,count表示 department,status,age和salary 在该行具有给定值的元组数。
status age salary
sales senior 31…35 46K…50K 30
sales junior 26…30 26K…30K 40
sales junior 31…35 31K…35K 40
systems junior 21…25 46K…50K 20
systems senio r 31…35 66K…70K 5
systems junior 26…30 46K…50K 3
systems senio r 41…45 66K…70K 3
marketing senior 36…40 46K…50K 10
marketing junior 31…35 41K…45K 4
secretary senior 46…50 36K…40K 4
secretary junior 26…30 26K…30K 6
问:给定一个数据元组,它的属性 department,age 和 salary 的值分别为 “systems”,
“26…30”,和“46K…50K”。该元组 status 的朴素贝叶斯分类是什么?
【解答】
,status的属性值为:{junior, senior}。
设元组的各个属性之间相互独立,所以先求每个属性的类条件概率:
P(systems|junior)=(20+3)/(40+40+20+3+4+6)=23/113;
P(26…30|junior)=(40+3+6)/113=49/113;P(46K-50K|junior)=(20+3)/113=23/113;
∵ X=(department=system, age=26 …30,salary=46K…50K);
∴ P(X|junior)=P(systems|junior)P(26…30|junior)P(46K-50K|junior)
=23×49×23/1133=25921/1442897=0.01796 ;
P(systems|senior)= (8/31)*(31/165)/(52/165)=8/52;
P(26…30|senior)=(0)/52=0;
P(46K-50K|senior)=(30+10)/52=40/52;
∵ X=(department=system, age=26 …30,salary=46K…50K);
∴ P(X|senior)=P(systems|senio r)P(26-30|senior)P(46K-50K|senior)=0;
∵ P(junio r)=113/165=0.68 ;
∵ P(senio r)=52/165=0.32;
∴ P(X|junior)P(junior)=0.01796×0.68=0.0122128 P(X|senior)P(senio r)=0×0.32=0;
所以:朴素贝叶斯分类器将 X 分到 junior 类。