大一计算思维导论-数据分析及数据挖掘下载_Word模板_13

is_348501

暂无简介

大一计算思维导论-数据分析及数据挖掘第8 章数据分析与数据挖掘一、单选题 1. 某超市研究销售记录数据后发现，买啤酒的人很大概率也会购买尿布，这种属于数据挖掘的【】问题。 A：关联规则 B：聚类 C：分类 D：自然语言处理答案：A 2. 将原始数据进行集成、变换、维度规约、数值规约是【】步骤的任务。 A：频繁模式挖掘 B：分类和预测 C：数据预处理 D：数据流挖掘答案：C 3. 当不知道数据所带标签时，可以使用【】技术促使带同类标签的数据与带其他标签的数据相分离。 A：分类 B：聚类 C：关联分析 ...

第8 章数据

分析

定性数据统计分析pdf 销售业绩分析模板建筑结构震害分析销售进度分析表京东商城竞争战略分析

与数据挖掘一、单选题 1. 某超市研究销售记录数据后发现，买啤酒的人很大概率也会购买尿布，这种属于数据挖掘的【】问题。 A：关联

规则

编码规则下载淘宝规则下载天猫规则下载麻将竞赛规则pdf 麻将竞赛规则pdf

B：聚类 C：分类 D：自然语言处理答案：A 2. 将原始数据进行集成、变换、维度规约、数值规约是【】步骤的任务。 A：频繁模式挖掘 B：分类和预测 C：数据预处理 D：数据流挖掘答案：C 3. 当不知道数据所带标签时，可以使用【】技术促使带同类标签的数据与带其他标签的数据相分离。 A：分类 B：聚类 C：关联分析 D：隐马尔可夫链答案：B 4. 级110人。则年级属性的众数是【】。 A：一年级 B：二年级 C：三年级 D：四年级答案：A 5. 建立一个模型，通过这个模型根据已知的变量值来预测其他某个变量值，这属于数据挖掘的【】任务。 A：根据内容检索 B：建模描述 C：预测建模 D：寻找模式和规则答案：C 6. 假设12个销售价格数据排序后为：5, 10, 11, 13, 15, 35, 50, 55, 72, 91, 204, 215，使用等频分箱法将它们划分成四个箱。则15在【】箱子内。 A：第一个 B：第二个 C：第三个 D：第四个答案：B 7. 假设12个销售价格数据排序后为：5, 10, 11, 13, 15, 35, 50, 55, 72, 91, 204, 215，使用等宽分箱法将它们划分成四个箱。则15在【】箱子里。 (最大值-最小值)/组数=跨度 A：第一个 B：第二个 C：第三个 D：第四个答案：A 8. 设X={1,2,3}是频繁项集，则可由X产生【】个关联规则。列出非空子集判断两两之间的关系 A：4 B：5 C：6 D：7 答案：C 9. 以下【】算法是聚类算法。 A：ID3 B：C4.5 C：K-Mean D：Apriori答案：C 10. 以下【】算法是关联规则算法。 A：DBSCAN B：C4.5 C：K-Mean D：Apriori答案：D 二、多选题 1. 数据挖掘的预测建模任务主要包括【】大类问题。 A：分类 B：回归 C：模式发现 D：模式匹配答案：AB 2. 以下【】学科和数据挖掘有密切联系。 A：统计学 B：计算机硬件 C：矿产挖掘 D：数据库技术答案：AD 3. 在现实世界的数据中，记录在某些属性上缺少值是常有的。描述处理该问题的各种方法有【】。 A：忽略记录 B：使用属性的平均值填充空缺值 C：使用一个常量填充空缺值 D：使用最可能的值填充空缺值答案：ABCD 4. 对于数据挖掘中的原始数据，存在的问题有【】。 A：不一致 B：重复 C：不完整 D：含噪声 E：维度高答案：ABCDE 5. 下列属于有序数据的有【】。 A：时序数据 B：序列数据 C：空间数据 D：事务数据答案：ABC 三、分析

计算题

一年级下册数学竖式计算题下载二年级余数竖式计算题下载乘法计算题下载化工原理计算题下载三年级竖式计算题下载

1. 假定给定的数据集的值已经分组为区间。区间和对应的频率如下：年龄频率 1~5 200 5~15 450 15~20 300 20~50 1500 50~80 700 80~110 44 计算数据的近似中位数值。【解答】先判定中位数区间：N=200+450+300+1500+700+44=3194； N/2=1597 ∵ 200+450+300=950<1597<2450=950+1500； ∴ 20~50 对应中位数区间。我们有：L1=20，N=3194，(∑freq) l=950(中位数区间以前的数的和)，freqmedian=1500(中位数区间)，width=30，使用公式： ∴ median=32.94 岁。 2. 假定用于分析的数据包含属性 age。age 值（以递增序）是：13，15，16，16，19， 20，20，21，22，22，25，25，25，25，30，33，33，35，35，35，35，36，40，45， 46，52，70。请找出该组数据中的异常值。【解答】箱线图包含最小值、第一分位数（25%的数据）、第二分位数（中位数）、第三分位数（75%的数据）、最大值五个数。最小值：min = 13 数据个数：n=27 样本数据为奇数，中位数位置公式为：(n+1)/2= 14，第二分位数（中位数），即：Q2 = median = 25 第一分位数：位置在(n+1)/4=7处。故，Q1(中位数一下的中位数)=20 第三分位数：位置在3*(n+1)/4处。故，Q3(中位数以上的中位数)=35 最大值：70 Whisker下限：Q1-1.5*（Q3-Q1）=20-1.5*15 = -2.5 Whisker上限：Q3+1.5*（Q3-Q1）=35+1.5*15 = 57.5 因此找出大于Whisker上限的异常点：70 3. 假设12个销售价格已经排序如下：5，10，11，13，15，35，50，55，72，91，204， 215。分别使用如下方法将其划分成三个箱。 (a)等频（等深）划分。 (b)等宽划分。 (c)聚类（使用两个数之间的最大间隙进行划分）。【解答】等频法等宽法聚类法每桶深：N/3 = 4 每桶宽：（215-5）/3 = 70 2个最大间隙 bin1 5,10,11,13 bin2 15,35,50,55 bin3 72,91,204,215 bin1 5,10,11,13,15,35,50,55,72 bin2 91 bin3 204,215 bin1 bin2 bin3 5,10,11,13,15 35,50,55,72,91 204,215 4. 邮局分拣包裹。见下

表

关于同志近三年现实表现材料材料类招标技术评分表图表与交易pdf 视力表打印pdf 用图表说话 pdf

。求包裹的平均重量。序号每包重量包数 1 96-98 2 2 98-100 3 3 100-102 34 4 102-104 7 5 104-106 4 【解答】序号每包重量组中值包数总重量 1 96-98 97 2 194 2 98-100 99 3 297 3 100-102 101 34 3434 4 102-104 103 7 721 5 104-106 105 4 420 50 5066 平均重量： = 5066/50 = 101.32 5. 清华跳水队选拔选手参加全国大学生体育运动会，甲乙二人现有的训练成绩如下表所示，如果想带成绩较稳定的队员参加比赛，试问该带谁参赛呢？ 1 2 3 4 5 6 7 8 9 10 甲 9.7 8.6 9.6 8.6 7.9 9.6 9.3 8.9 9.6 9.2 乙 9.4 9.5 8.5 9.5 9.1 9.2 9 8.6 8.8 9.6 【提示】：无论是

标准

excel标准偏差 excel标准偏差函数 exl标准差函数国标检验抽样标准表免费下载红头文件格式标准下载

差，还是方差，都是带量纲的，也就是说有计量单位。计量单位不同的两组数据，不能直接比较其离散程度。为此需要求离散系数，公式为：标准差 / 平均值【解答】 2 标准差为方差的平方根，方差公式为：甲的均值为：（9.7+8.6+9.6+8.6+7.9+9.6+9.3+8.9+9.6+9.2）/10 = 9.1 乙的均值为：（9.4+9.5+8.5+9.5+9.1+9.2+9+8.6+8.8+9.6）/10 = 9.12 1 2 3 4 5 6 7 8 9 10 甲 9.7 8.6 9.6 8.6 7.9 9.6 9.3 8.9 9.6 9.2 9.1（均值）离差 0.6 -0.5 0.5 -0.5 -1.2 0.5 0.2 -0.2 0.5 0.1 离差平方 0.36 0.25 0.25 0.25 1.44 0.25 0.04 0.04 0.25 0.01 3.14（和）乙 9.4 9.5 8.5 9.5 9.1 9.2 9 8.6 8.8 9.6 9.12（均值）离差 0.28 0.38 -0.62 0.38 -0.02 0.08 -0.12 -0.52 -0.32 0.48 离差平方 0.08 0.14 0.38 0.14 0.00 0.01 0.01 0.27 0.10 0.23 1.38（和）甲的方差为：离差平方和 / n = 3.14/10 = 0.314 乙的方差为：离差平方和 / n = 1.38/10 = 0.138 甲的离散系数为：乙的离散系数为：由于甲的离散系数比乙的离散系数大，故乙比甲更稳定，故应选派乙参赛。 6. 下表给出了一组年薪数据，其中X表示大学毕业后工作的年数，而Y表示对应的收入。散点图如下图，从散点图可以看出这些数据暗示着X和Y之间存在着线性关系，现在请你用一元线性回归预测具有10年工作经验的大学毕业生的年薪为多少？ X（年） Y（千） 3 30 8 57 9 64 13 72 3 36 6 43 11 59 21 90 1 20 16 83 【提示】：设线性回归方程公式为??=??+??x，计算回归系数a、b 公式为：。【解答】计算??? = 9.1，??? = 55.4。将值代入公式，得到: b= a=55.4-3.5*9.1=23.6 因此，回归方程为y=23.6+3.5X。使用该方程，我们可以预测有10年工作经验的大学毕业生的年薪为58.6（千） 7. 数据库有 5 个事物。设最小支持度min_sup=60%，最小置信度min_conf=80% ，请你用Apriori算法计算关联规则。 TID 购买的商品 T100 { M, O, N, K, E, Y } T200 { D, O, N, K, E, Y } T300 { M, A, K, E } T400 { M, U, C, K, Y } T500 { C, O, O, K, I, E } 【解答】商品总共有11种：A,C,D,E,I,K,M,N,O,U,Y。事务5件，最小支持度为60%，最小支持度计数为5 * 60% = 3。候选1-项集C1 频繁1-项集L1 候选2-项集C2 频繁2-项集L2 A 1 E 4 EK 4 EK 4 C 2 K 5 EM 2 EO 3 D 1 M 3 EO 3 KM 3 E 4 O 3 EY 2 KO 3 I 1 Y 3 KM 3 KY 3 K 5 KO 3 M 3 KY 3 N 2 MO 1 O 3 MY 2 U 1 OY 2 Y 3 ----------------------------------------------------------------------------- 候选3-项集频繁3-项集 EKO 3 EKO 3 EKY 2 min_conf = 80% 子集：EK、EO、OK、E、K、O 规则：EK→O 3/4 = 75% EO→K 3/3 = 100% OK→E 3/3 = 100% E→KO 3/4 = 75% K→EO 3/5 = 60% O→EK 3/3 = 100%有效规则：1）E,O→K min_sup = 60%，min_conf = 100% 2）O,K→E min_sup = 60%，min_conf = 100% 3）O→EK min_sup = 60%, min_conf = 100%。 8. 下表由雇员数据库的训练数据组成。数据已泛化。例如，age “31…35”表示年龄在 31~35 之间。对于给定的行，count表示 department，status，age和salary 在该行具有给定值的元组数。 status age salary sales senior 31…35 46K…50K 30 sales junior 26…30 26K…30K 40 sales junior 31…35 31K…35K 40 systems junior 21…25 46K…50K 20 systems senio r 31…35 66K…70K 5 systems junior 26…30 46K…50K 3 systems senio r 41…45 66K…70K 3 marketing senior 36…40 46K…50K 10 marketing junior 31…35 41K…45K 4 secretary senior 46…50 36K…40K 4 secretary junior 26…30 26K…30K 6 问：给定一个数据元组，它的属性 department，age 和 salary 的值分别为 “systems”， “26…30”，和“46K…50K”。该元组 status 的朴素贝叶斯分类是什么？【解答】，status的属性值为：{junior, senior}。设元组的各个属性之间相互独立，所以先求每个属性的类条件概率： P(systems|junior)=(20+3)/(40+40+20+3+4+6)=23/113; P(26…30|junior)=(40+3+6)/113=49/113；P(46K-50K|junior)=(20+3)/113=23/113； ∵ X=(department=system, age=26 …30,salary=46K…50K)； ∴ P(X|junior)=P(systems|junior)P(26…30|junior)P(46K-50K|junior) =23×49×23/1133=25921/1442897=0.01796 ; P(systems|senior)= (8/31)*(31/165)/(52/165)=8/52; P(26…30|senior)=(0)/52=0; P(46K-50K|senior)=(30+10)/52=40/52; ∵ X=(department=system, age=26 …30,salary=46K…50K); ∴ P(X|senior)=P(systems|senio r)P(26-30|senior)P(46K-50K|senior)=0; ∵ P(junio r)=113/165=0.68 ; ∵ P(senio r)=52/165=0.32; ∴ P(X|junior)P(junior)=0.01796×0.68=0.0122128 P(X|senior)P(senio r)=0×0.32=0; 所以：朴素贝叶斯分类器将 X 分到 junior 类。

本文档为【大一计算思维导论-数据分析及数据挖掘】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。

大一计算思维导论-数据分析及数据挖掘

热门搜索

历史搜索