为了正常的体验网站,请在浏览器设置里面开启Javascript功能!
首页 > 结晶学ch1

结晶学ch1

2017-04-14 21页 pdf 313KB 26阅读

用户头像

is_959510

暂无简介

举报
结晶学ch11第一章数理统计的基本概念统计学是一门关于数据的收集、整理、分析和推断的科学数理统计的方法不同于一般的资料统计,它侧重于应用随机现象本身的规律性来考虑资料的收集、整理和分析,找出相应随机变量的分布规律或它的数字特征数理统计的研究内容分为两类:1)采集样本:研究如何更合理更有效地获得观察资料,包括抽样技术;②试验设计2)统计推断:研究如何利用一定的资料对所关心的问题作出尽可能精确、可靠的结论,即伴随有一定概率的推断统计估计参数推断):参数估计;非参数估计②统计检验非参数推断):参数性假设检验;非参数性假设检验统计推断是数理统计的...
结晶学ch1
1第一章数理统计的基本概念统计学是一门关于数据的收集、整理、分析和推断的科学数理统计的不同于一般的资料统计,它侧重于应用随机现象本身的规律性来考虑资料的收集、整理和分析,找出相应随机变量的分布规律或它的数字特征数理统计的研究内容分为两类:1)采集样本:研究如何更合理更有效地获得观察资料,包括抽样技术;②试验设计2)统计推断:研究如何利用一定的资料对所关心的问作出尽可能精确、可靠的结论,即伴随有一定概率的推断统计估计参数推断):参数估计;非参数估计②统计检验非参数推断):参数性假设检验;非参数性假设检验统计推断是数理统计的核心内容,其中非参数性推断估计和检验)一般是大样本的1基本概念一样本与总体下面通过几个例子来介绍抽样分布中常用的几个基本概念例1一个植棉专业户要了解某批棉籽的发芽率是多少例2某灯泡厂声称,该厂生产的灯泡的平均使用寿命大于3000小时,经销部门要考察该厂的说法是否可信例3医学专家要考察抽烟的人患气管炎的发病率是否高于不抽烟的人2研究对象的某项数量指标值的全体称为总体,记为X、Y等,总体的每一个值称为个体在例1中:XpB,1p发芽率),p例2X:灯泡的平均使用寿命,则X2,N,3000例31X:抽烟的人全体,1p:抽烟的人患病的概率,则:1X1,1pB2X:不抽烟的人全体,2p:不抽烟的人患病的概率,则2X2,1pB问题归纳为:21pp21,,,ppp称为概率分布的参数)为了研究上面的问题,需要从总体中抽取部分个体来研究,然后通过这部分个体所给出的信息,对总体进行推断总体中的部分个体称为样本,若抽取n个个体,则称样本容量为n从样本中抽取样本容量相同的各个样本,有的可能较好地反映了总体的某些特征,有的则可能较差,这涉及到有关的抽样技术问题,在所有样本中,性能最好的是所谓的简单独立随机样本设,,21XXnX是取自总体X的一个容量为n的样本,若每一个个体iX都与总体X同分布,且相互独立,则称,,21XXnX是一个简单独立随机样本设X的分布函数为F(x),则样本X1,X2,,Xn的联合分布函数为12121(,,,)()()()()nnniiFxxxFxFxFxFx3联合概率密度为121(,,,)()nniifxxxfx二直方图样本是对未知总体进行统计推断的基础若总体分布未知,要用样本对总体分布进行非参数推断,常用方法是直方图和经验分布函数设nXXX,,,21是总体X的一个样本,总体具有概率密度f,如何用样本来推断f具体做法如下:01找出(1)()11min,maxiniininXXXX取a略小于,)1(Xb略大于)(nX;02将[a,b]分成m个小区间m<n),小区间长度可以不等,设分点为01matttb;03记jn落在小区间],(1jjtt中观察值的个数频数),计算频率,nnfjj列分别记下各小区间的频数、频率04在直角坐标系的横轴上,标出mttt,,,10各点,分别以],(1jjtt为底边,作高为jjtf的矩形,,,,2,1,1mjtttjjj即得直方图ytfjj0xjjtt14例1在齿轮加工中,齿轮的径向综合误差iF是个随机变量,今对n=200件同样的齿轮进行测量,测得iF的数值mm)如下,求作iF的直方图ch11齿轮数据sa在spss中的输出如下齿轮数据37535032530027525022520017515012510075403020100StdD=584Man=194N=20000三经验分布函数对于总体X的分布函数F未知),我们可以从样本X1,X2,,Xn出发找到一个已知量来近似它,这就是经验分布函数Fn(x),方法是:将X1,X2,,Xn的观察值按从小到大可排成(1)(2)()nXXX定义)()1()()1(,11,,2,1,,,0)(nkknXxnkXxXnkXxxF5如图结论1:Fn(x)F(x)n)以概率为1几乎处处aas)成立,即{lim()()}1nnPFxFx结论2:Fn(x)以概率为1一致收敛于理论分布F(x),即{limsup()()0}1nnxPFxFx格里汶科定理1933)0)(xFn1x)()3()2()1(nXXXX62统计量及其分布一常用的统计量不含任何未知参数的样本的函数称为统计量,对于一组样本的观测值便可以得到统计量的一次观测值设,,21XXnX为一个随机样本,常用的统计量有:样本均值:11niiXXn样本方差:22111niiSXXn22011niiSXXn样本k阶(原点)矩样本k阶中心矩统计量的分布称为抽样分布二顺序统计量及其分布将样本的观察值按大小排列得到的统计量(1)(2)()nXXX称()kX为第k个顺序统计量特别,(1)12min{,,,}nXXXX是n次简单随机抽样的最小观测22111niiXnXn11,1,2,nkkiiAXkn11(),2,3,nkkiiBXXkn7值,()12max{,,,}nnXXXX是n次简单随机抽样的最大观测值称为偶数,为奇数,nXXnXMnnn),(21,)12()2()21(为样本中位数称)1(XXDn)为样本极差1)容易求出()kXk=1,2,,n)的分布函数:()()(){}[()][1()]knmmnmXknmkFxPXxCFxFx如果总体X有密度()fx,则()kX的密度为()111()[()][1()]()kkknkXnfxnCFxFxfx当k=1时,得到(1)X的分布函数和概率密度分别为(1)()1[1()]nXFxFx(1)1()[1()]()nXfxnFxfx当k=n时,得到()nX的分布函数和概率密度分别为()()[()]nnXFxFx()1()[()]()nnXfxnFxfx82)样本极差的分布函数和概率密度1[()()](),0()0,0nDnFuxFufuduxFxx1(1)[()()]()(),0()0,0nDnnFuxFufuxfuduxfxx3)极值分布对固定的n,(1)X与()nX的分布函数与概率密度在实际应用中很重要例如在气象、水文、地震预报问题及可靠性理论中,需要掌握各种极值的分布情况但它们的精确分布很难直接用于统计分析,因此当n时,(1)X与()nX的极限分布有很重要的理论与实际意义对于适当的正值数列{}na和{}nb,如果(1)nnXab有极限分布,则称之为极小值分布;如果()nnnXab有极限分布,则称之为极大值分布;极小值分布和极大值分布统称为极值分布格里汶科在1943年找到了收敛于极值分布的充要条件,表明共有三种类型的极值分布01极大值分布:以()Gx表示极大值分布函数,它有三种类型Ⅰ型()xp{}xGxxⅡ型xp{}0(0)()00xxGxx9Ⅲ型10()xp{()}0(0)xGxxx02极小值分布:以()Gx表示极小值分布函数,它有三种类型Ⅰ型()1xp{}xGxxⅡ型10()1xp{()}0(0)xGxxxⅢ型1xp{}0(0)()00xxGxxⅠ型极值分布又叫重指数分布或冈伯尔Gumbl)分布,Ⅱ型和Ⅲ型分布又叫威布尔(Wibull)—格里汶科分布103参数估计参数估计是已知总体的分布形式,以样本的某个统计量来估计总体的某个参数,包括点估计、区间估计一点估计点估计:选择一个最适当的样本统计量,作为某个总体参数的估计值例如:(1)考察某个地区的人均收入,抽取部分居民户样本),计算样本的人均收入,以此来作为整个地区的人均收入的估计,即由样本均值来估计总体均值(2)考察某批产品的次品率p,用样本比率sP来作p的估计对于总体的同一个特征数,可以构造出若干个不同的统计量作为其估计量例如,作为总体均值的估计,可以用样本均值,亦可用样本中位数那么哪一个估计量更好,需要建立一个评价估计量好坏的准则设X为总体,是总体的一个分布参数如均值、方差等),又设nXXX21,是取自总体X的一个简单随机样本,构造统计量:),,(21nXXXTT以T作为的估计,则希望T越小越好而T是随机的,建立如下评价指标:212,[(,,)]nRTETXXXTR,反映了平均偏差,是具体数非随机),TR,越小越好112222222))(())(())((2))((2,TETVarTETETETETETETETETTETETETETETETETR由此可知,2TETVar与越小越好1无偏性设21,(XXT)nX是总体参数的一个估计量,如果12((,,))nETXXX=则称为T的无偏估计即T的所有估计值的平均结果和待估参数的真实值没有偏误例1:设总体X的期望值为,方差为2,nXXX21,是取自总体的一个简单随机样本,则样本均值X及样本方差2S分别是2与的无偏估计注:若222200111,niinSXXESnn则,221limnnn,20S是渐近无偏估计2有效性最小方差性)所有关于的无偏估计量构成了一个无偏估计集,在所有关于的无偏估计中,其方差越小,则估计的偏差越小,估计量越好设TT与为的两个无偏估计量,若()()VarTVarT则称TT比有效对于固定的样本容量n,设),,,(21nXXXTT是参数函数12)(g的无偏估计量,若对)(g的任一无偏估计量),,,(21nXXXTT有)'()(TDTD,()则称),,,(21nXXXT为)(g的一致)最小方差无偏估计量,或称为最优无偏估计量考虑)(g的一个无偏估计T(X),有()(;)()()TxfxdxETg两边对求导(;)()()(1)fxTxdxg又1);(dxxf上式对求导(;)0(2)fxdx将(2)乘以)(g再与1)相加得)();()]()([gdxxfgxT上式改写成dxxfxfxfxfgxTg);();();(});(])()({[)(用柯西—许瓦尔兹(CauchySchwarz)不等式,即得222(;)1[()][()()](;)(;)(;)fxgTxgfxdxfxdxfx其中2[()()](;)()TxgfxdxDT1322(;)1ln(;)(;)(;)fxfXfxdxEfx即得著名的CramrRao不等式简称CR不等式):22ln(;)(())[()]fXDTXgE注意到nXXX,,,21独立同分布,由1ln(;)ln(;)niifxfx以及当ji时,利用式2)ln(;)ln(;)ln(;)ln(;)jijifXfXEfXfXEEln(;)ln(;)(;)jijjfxfXEfxdx(;)ln(;)0jijfxfXEdx可得22121ln(;)ln(;)ln(;)()niifXfXEEfXnEnI14其中21);(ln)(XfEI称为费歇(Fishr)信息量,于是2(())[()]()DTXgnI上式的右边称为参数函数)(g估计量方差的CR下界还可以证明)(I的另一表达式,它有时用起来更方便:212);(ln)(XfEI称)())(()]([2nIXTDgn为)(g的无偏估计量T的效率由CR不等式,1n)又当T的效率等于1时,称T是有效的;若1limnn,则称T是渐近有效的有效估计量必是最小方差无偏估计量,反过来则不一定正确常用到的几种分布的参数估计量多是有效或渐近有效的例2:设总体X),,(2NnXXX,,,21为X的样本,则的无偏估计X是有效的,2的无偏估计2S是渐近有效的证:i)已知X,2S分别是和2的无偏估计;ii)计算2(),()DXDS易知nXD2)(又由定理22)1(Sn)1(2n,)1(2)1(22nSnD从而44222()2(1)(1)1DSnnn(iii)计算)(),(2II15因为2121),;(lnXXf故2142211)(1),;(ln)(XDXfEI又2142221)(2121),;(lnXXf216422212)(121)(),;(lnXXf故44422212221121)(),;(ln)(XfEI(i)计算效率2(),()nnXS2211()11()()nXDXnInn24224111()1,21()()12nnSnDSnInnn故X是的有效估计,2S是2的渐近有效估计3一致性相合性)设),,,(21nXXXT是)(g的一个估计量,如果对于任给的0,有12lim{(,,,)()}0nnPTXXXg则称),,,(21nXXXT是)(g的一致性相合)估计16例如:设总体X的均值为,方差为2,则样本均值X为的一致估计量注:一致估计未必是无偏的;但对于无偏估计,由Chbysh不等式22121)),,,((})(),,,({nnXXXTDgXXXTP当),,,(21nXXXT的方差趋于0时,则T是一致估计量特别地,若T是有效的,因为nnIgXXXTDn,0)()]([)),,,((221则T必然是一致估计量4最小均方误差准则设ˆ是参数的一个估计,称2ˆˆ()()MsE为ˆ的均方误差最小均方误差准则是要求的估计量ˆ,使)ˆ(Ms尽可能地小显然对于无偏估计,均方误差最小和方差最小是一致的例3:设总体X),(2N,nXXX,,,21为一样本,试在形如20(0)S的统计量中确定2的最小均方误差估计解:注意到422200212(1)(),()nnESDSnn于是172222222002222202222402242()()111[()]11()()12(1)1ESESnnESnnnDSnnnnn欲使上式最小,须取1)1(2)1(222nnnnnn即22011()11niinSXXnn5稳健性准则所谓稳健估计量就是满足这样条件的估计量:当样本符合或接近统计模型的假设时,该估计量应有好的或较好的估计效果;当样本偏离模型的假设时,即受到干扰时,该估计量应有一定抗干扰的能力而不至于使估计效果变的太差说明:1)数理统计作为一门数学在讨论、评价某一事物时,必须有严格的数学,并在此数学标准下进行定量的讨论,而不是笼统地、经验地做一些定性的分析2)这些数学标准的建立是从实际需要中抽象出来的,每一种标准都是从不同的角度提出,应根据实际情况和需要选用不同的标准二区间估计略)184贝叶斯(Bays)估计在前面关于参数估计的讨论中,我们总是把待估参数视为参数空间的一个未知常数或常向量)例如某学生通过物理实验确定当地的重力加速度,得到数据980,979,978,681,6802sm)平均结果是X=8596,对这个结果认为要如何看待对参数的先验知识不会是一个确定的值,而只能是一个分布要利用先验知识,就要把参数视为在中取值的随机变量在实际上可以有两种理解:一种理解是从某一范围考察,参数确是随机的如用p表示某工厂每日的废品率,尽管从某一天看,p确是一个未知常数,但如从数天或更长的一段时间看,每天的p会有一定的变化,一般来说这p的变动范围呈现出一定的分布规律,可以作为某日废品率估计的参考资料;另一种理解是参数可能确是某一常数,但人们无法知道或无法完全准确地知道它,只能通过它的各个观察值去认识为了在小子样下能得较好的参数估计,必须有效地利用对参数历史资料或先验知识,而先验分布是已知的,这就是贝叶斯估计的基本出发点将参数视为一取值于的随机变量,它有一个概率分布,记为)(H,称为参数的先验分布,)(H相应的密度或分布列)记为)(h设样本nXXX,,,21来自总体X,并设);(xF是19X的分布函数,则样本的分布函数121(,,,;)(;)(1)nniiFxxxFx在贝叶斯估计中,既然是取值于的随机变量,上述分布函数实际上是在随机变量取定的条件下样本的分布,即(1)式改写为121(,,,)()nniiFxxxFx同理对于样本密度或分布列)也可有类似的记法设ˆ是的估计量,引入二次损失函数:2ˆˆ(,)()(2)L考虑样本和参数的联合分布,联合密度如果存在的话)为1212(,,,,)(,,,)()(3)nngxxxgxxxh于是定义对于的一个估计),,,(ˆˆ21nXXX,记121212,ˆˆ()(,(,,,))(,,,)()(4)nnnnRRLxxxgxxxhdxdxdxd称)ˆ(R是估计量ˆ的贝叶斯风险,并称使)ˆ(R达到最小的估计0ˆ,即0ˆˆ()min()(5)RR为的贝叶斯估计对于离散型随机变量,只须将积分号改为求和号,将概率密度改为分布列即可简记nndxdxdxdxxxxx2121),,,,(,对式4)两边关20于ˆ求导,则ˆ()ˆ2(())()()ˆ()nRRxgxhdxd令上式右边等于0,交换积分次序,并利用式3),得ˆ()()()()()(ˆ)((,))(6)nnnRRRgxhddxxgxhddxxgxddx显然,若令0ˆ()(7)hxd其中12()()()(,,,)(8)(,)ngxhhxhxxxgxd将7)、8)代入6),即知)(ˆ0x是方程6)的解,亦即)(ˆ0x使式5)满足,从而是的贝叶斯估计称)(xh为的后验分布例1:设总体X),,(2N),(2N,其中,,已知,nXXX,,,21为X的样本,求二次损失下的贝叶斯估计解:样本关于的条件密度为niinnnxxxxg122221)(21xp)2(1),,,(的先验密度为222)(21)(h联合密度为21niinnnnxhxxxgxxxg122222121212)()(21xp)2(1)(),,,(),,,,(上式的指数部分含的项可整理为222)(t,其中222222212222111,11niinxtxxnnnn又边缘密度12(,,,,)ngxxxd与无关,于是的后验密度为2122()(,,,)xp2nthxxxC其中C为与无关的常数,此后验分布仍是正态的关于此分布的期望即为所求的贝叶斯估计22221ˆ(10)nXnt在引例中,假设该学生测重力加速度实验数据的总体服从)1,(N,又设的先验分布为))10(,89(2N,则的贝叶斯估计为22585969851ˆ97431(01)1(01)注:贝叶斯方法不仅是一种方法,而是提供了另一种统计思想今后除特别声明之外,一般仍是采用传统的即“频率派”的观点,将参数作为普通未知常数看待
/
本文档为【结晶学ch1】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。 本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。 网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
热门搜索

历史搜索

    清空历史搜索