为了正常的体验网站,请在浏览器设置里面开启Javascript功能!
首页 > 数据科学导论

数据科学导论

2021-06-26 3页 pdf 1MB 68阅读

用户头像 个人认证

is_083610

暂无简介

举报
数据科学导论1数据科学导论IntroductiontoDataScience第三章数据统计刘淇Email:qiliuql@ustc.edu.cnAnIntroductiontoDataScience11/5/2019假设检验2两类错误假设检验的过程希望判断的结果犯错率越低越好。但对于一定量的样本n,一个类型错误的错误率降低伴随着的是另一个类型错误犯错率的增加。哪一类错误所造成的后果更严重,在假设检验中就应当把哪一类错误作为首要的控制目标。α错误(弃真)的犯错率即为置信度,降低置信度就可以降低这一类错误的犯错率;β错误(取伪)则...
数据科学导论
1数据科学导论IntroductiontoDataScience第三章数据统计刘淇Email:qiliuql@ustc.edu.cnAnIntroductiontoDataScience11/5/2019假设检验2两类错误假设检验的过程希望判断的结果犯错率越低越好。但对于一定量的样本n,一个类型错误的错误率降低伴随着的是另一个类型错误犯错率的增加。哪一类错误所造成的后果更严重,在假设检验中就应当把哪一类错误作为首要的控制目标。α错误(弃真)的犯错率即为置信度,降低置信度就可以降低这一类错误的犯错率;β错误(取伪)则是由很多客观因素造成的,难以明确示。增大样本量可以使得两类错误同时减小!11/5/2019抽样方法3前面介绍了对数据的一些统计方法。但在分析数据之前,还有一个很重要的部分就是采集数据。由于人力物力的限制,抽样的数量是有限的,好的抽样方法可以通过较少的样本数量反映正确的总体信息。抽样结果是否具有代表性,决定了通过数据得到对总体的认知是否是合适的。11/5/2019抽样方法4抽样抽样是通过抽取总体中的部分个体,收集这些个体的信息,从而对总体进行推断的一种手段。8000points2000Points500Points常见抽样方法:非概率抽样等概率抽样11/5/2019不等概率抽样抽样方法5非概率抽样抽取样本时不是依据随机原则,而是根据研究目的对数据的要求,采用某种方式从总体中抽出部分单位对其实施调查常见非概率抽样方法:随意抽样——随便选择抽样对象判断抽样——由抽样人制定抽样对象志愿抽样——以志愿者为对象抽样滚雪球抽样——由被抽样对象推荐其他被抽样对象。11/5/2019抽样方法6非概率抽样缺点:抽取样本有主观性,使结果有偏差;不可能计算各个元素的入样概率,无法得到可靠的估计值及抽样误差估计值,不能推断总体。11/5/2019抽样方法7等概率抽样每一个单元的入样概率均相等;等概率抽样的基本出发点是将总体(或层)中的每一个单元看作是平等的,不“偏向”也不“疏远”某些特定的单元。如果总体单元差异不大,这种方式既简单也合理常见等概率抽样简单随机抽样分层抽样整群抽样系统抽样11/5/2019抽样方法811/5/2019抽样方法9抽签法将总体中的所有个体(共N个)编号(号码可以从1到N)。利用小球、卡片、纸条等手段随机抽取。简单随机抽样并不是随意或随便抽取,因为随意或随便抽取都会带有主观或客观的影响因素!11/5/2019抽样方法10随机数表法随机数表是统计工作者用计算机生成的随机数,并保证表中的每个位置上的数字是近似等可能出现的。随机数表并不是唯一的,因此可以任选一个数作为开始,读数的方向可以向左,也可以向右、向上、向下等等。随机数表示例162277943949544354821737932378873520964384263491648442175331572455068877047447672176335025839212067663016378591695556719981050717512867358074439523879332112342978645607825242074438155100134299660279545760863244094727965449174609629052847727080273432811/5/2019抽样方法11分层抽样当已知总体由差异明显的几部分组成时,为了使样本充分地反映总体的情况,常将总体分成几部分,然后按照各部分所占的比例进行抽样。其中所分成的各部分叫做层。分层抽样的一个重要问题是一个总体如何分层。分层抽样中分多少层,要视具体情况而定。总的原则是:层内样本的差异要小,而层与层之间的差异尽可能地大,否则将失去分层的意义。既可以对总体参数进行估计,也可以对各层的目标量进行估计11/5/2019抽样方法12例子一个单位的职工有500人,其中不到35岁的有125人,35~49岁的有280人,50岁以上的有95人。为了了解该单位职工身体状况的有关指标,从中抽取100名职工作为样本,应该怎样抽取?解:抽取人数与职工总数的比是100:500=1:5,则各年龄段(层)的职工人数依次是125:280:95=25:56:19,然后分别在各年龄段(层)运用简单随机抽样方法抽取。11/5/2019抽样方法13思考3:老师为了研究男女同学的数据挖掘学习情况、对某班12名同学(男8女4)采取了分层抽样的方法,抽取一个样本容量为3的样本进行研究,某女同学甲被抽到的概率是多少?某男同学乙被抽到的概率是多少?若用随机抽样法(无放回抽样),某女同学甲恰好被抽到一次的概率是多少?扩充:若用随机抽样法(有放回抽样),该样本中恰好有一个女生的概率是多少?11/5/2019抽样方法14整群抽样将总体全部数据分为许多个“群”,然后随机抽取若干“群”,对被抽中的各“群”内的所有数据登记调查。抽样时只需抽取群即可,操作简单;当总体数据自然成群时,抽样简单;当群内数据差异大,群间差异小时,效率更高;无法提前知道总样本量;11/5/2019抽样方法15整群抽样到多阶段抽样先抽取群,但并不是调查群内的所有数据,而是再进行一步抽样,从选中的群中抽取出若干个样本进行调查群是初级抽样单位,第二阶段抽取的是最终抽样单位。将该方法推广,使抽样的段数增多,就称为多阶段抽样;具有整群抽样的优点,保证样本相对集中,节约调查费用;在大规模的抽样调查中,经常被采用的方法;11/5/2019抽样方法16系统抽样当总体的个数较多时,采用简单随机抽样太麻烦,这时将总体分成均衡的部分,然后按照预先定出的规则,从每一部分中抽取1个个体,得到所需要的样本,这种抽样称为系统抽样。将总体中的个体均分后的每一段进行抽样时,采用简单随机抽样如总体的个体数不能被样本容量整除时,可以先用简单随机抽样从总体中剔除几个个体;整个抽样过程中每个个体被抽到的概率仍然相等;11/5/2019抽样方法1711/5/2019抽样方法18不等概率抽样如果总体单元相差较大,等概率抽样效果不一定好例子:估计合肥市商业零售总额,大型商场、中型超市和小型商店的差别非常明显,平等对待显然不合理。分层抽样:按规模分层,大型抽样比高、小型抽样比低目录抽样:少数大单元普查而大多数小单元进行抽样不等概率抽样11/5/2019抽样方法19不等概率抽样不等概率抽样(samplingwithunequalprobability)是指在抽取样本之前给总体中的每一个单元赋予一定的入样概率,从而保证大的(重要的)单元抽到的概率大,而小的(不重要的)的单元抽到的概率小。这里每个单元被赋予的入样概率通常与某个辅助变量有关(比如单元规模等)必要的约束条件对总体的每一个单元,都要已知一个辅助变量用于确定其入样概率或两个单元同时入样的概率11/5/2019抽样方法20不等概率抽样适用情况:需要估计总体总量但总体单元规模相差很大的情况抽样审计,注册会计师对某类交易或账户余额中低于百分之百的项目实施审计程序,使所有抽样单元都有被选取的机会。在不能直接对基本的较小单元抽样的情形下,与其它抽样结合,完成对大的单元的抽样。集成学习主动学习中存在不等概率抽样11/5/2019抽样方法21抽样规模假定有10个组(组的大小大致相当)的数据样本,如果从这些数据样本中进行抽样(假设是有放回抽样),如果仅抽样10次,抽样得到的数据样本里恰好包含了每个组的一个样本的概率是多少?抽样方法22抽样规模假定有10个组(组的大小大致相当)的数据样本,如果从这些数据样本中进行抽样,需要抽样多少次才能保证抽样到的数据样本里包含了每个组的至少一个样本?2311/5/2019总结:大数据为什么还需要抽样24提高效率,节省时间成本与计算资源无法得到样本整体或者得到样本整体的成本太高通过抽样来解决样本不均衡问题欠抽样(针对大类数据)、过抽样(针对小类数据)…定性分析的工作需要通常不需要定量分析时的完整假设、精确数据和复杂统计分析过程,更多的是采用访问、观察和文献法收集资料并通过主观理解和定性分析找到问题主要依靠人自身的能力而非密集的计算机能力来完成研究25总体样本数据指标参数估计假设检验11/5/2019数据统计26数据分布基本指标参数估计假设检验抽样方法Tips:一项研究工作不一定使用到所有的数据统计数据统计量的使用方法必须结合实际场景的需求同一类数据统计不一定适用于不同的场景例如,使用哪一类假设检验方法有些统计量也可能在结果评估等场景中使用
/
本文档为【数据科学导论】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。 本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。 网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。

历史搜索

    清空历史搜索