为了正常的体验网站,请在浏览器设置里面开启Javascript功能!

帕累托分布

2011-12-08 5页 pdf 177KB 73阅读

用户头像

is_552043

暂无简介

举报
帕累托分布 第 22卷 第 3期 2004年 9月 徐州师范大学学报(自然科学版) J.of Xuzhou Normal Univ.(Natural Science Edition) Vo1.22。NO.3 Seo..2004 Pareto分布的检验 李海芬,茆诗松 (华东师范大学 统计系。上海。200062) 摘要 :给出了 Pareto分布检验的图检验法 、相关系数 R 检验法 ,通过随机模拟计算 出了 R。检验分位数 。进而讨论 了 R。检验对常用非 Pareto分布的功效 。验证了该检验法的实用性....
帕累托分布
第 22卷 第 3期 2004年 9月 徐州师范大学学报(自然科学版) J.of Xuzhou Normal Univ.(Natural Science Edition) Vo1.22。NO.3 Seo..2004 Pareto分布的检验 李海芬,茆诗松 (华东师范大学 统计系。上海。200062) 摘要 :给出了 Pareto分布检验的图检验法 、相关系数 R 检验法 ,通过随机模拟计算 出了 R。检验分位数 。进而讨论 了 R。检验对常用非 Pareto分布的功效 。验证了该检验法的实用性. 关键词:Pareto分布;分布检验 ;图检验法;相关系数 R 检验法 中图分类号:0212.7 文献标识码:A 文章编号:lO07—6573(2004)03—0012—05 Pareto分布是意大利经济学家 Pareto V将其作为一种 ,rn^ 收入分布最先介绍的[1].一个多世纪以来,它在广泛而不同的 l : 应用领域中越来越受到重视.由于Pareto分布具有递减的失 f l 效率函数,经常用来描述诸如个人收入(收入越高,获得更高 f i\ 收入的能力就会增加)、某种药理过程后病人的存活时间(存 l i\ 活时间越长,能够继续存活更长时间的可能性就越高)等模 l : \\ 型.其它模型例如城市人121容量、自然现象的发生、股票价格 l : ~ 波动、保险风险、商业失效 等,也都 可以用 Pareto分 布来 描 ” ‘ 述.本文给出了P t。分布检验的图检验法、相关系数Rz检 。. .Pare : ’皇分 度 数. 验法 ,为进一步的统计打好基础· 。 。f th P t。孟 trib t二 文献[2]对其基本性质和应用进行了广泛深入的搜集和 介绍.两参数 Pareto分布的累积分布函数(cdf)和概率密度函数(pdf)分别为: , 丹 、0 F(£)一 1一 f÷ ), t≥ > 0,口> 0, (1) 、 ‘ , 厂(£)一 。t ’, t≥ > 0,口> 0, (2) 这里,a是形状参数 , 既为尺度参数 ,也是门限参数.我们将两参数 Pareto分布记为 Pareto(O,a). 1 Pareto分布的图检验法 概率纸是一种检验分布类型的工具.它计算简单,使用方便 ,尤其适合现场操作,能够很快地给出判 断.这里,专门设计 了一种用于检验总体是否服从 Pareto分布的概率纸.分布函数(1)在通常的等距离 坐标纸上是一条上升的曲线,若令 Y—In『=专 ,X—In B一口In 则有 y一口X—B, 这是在 X.y等距离坐标纸上的一条直线方程,它的斜率 a就是 Pareto分布的形状参数.由此对应关系, 如果根据样本基本上确定 X_y坐标系下的一条直线 ,就可以断定这个样本来 自某个 Pareto分布,进而 还可以大致确定两个未知参数的值. 假如 £·≤⋯≤£ 是来 自某 Pareto分布的一个容量为 7l的样本观察值,它们 出现的累计概率为 : Fi—F(t )一1一( ), i一1,2,⋯,71. (3) 收稿日期;2004—06—23 作者简介;李海芬(1978一),女。湖北武汉人,硕士。主要从事应用统计的研究 维普资讯 http://www.cqvip.com 第 3期 李海芬等 :Pareto分布的检验 由于参数还是未知的,所以 F 要另外估计.可用 去估计,即 . 是卢( , — +1)分布的 数学期望. 假如令 x 一In t ,Y —In击 , (4) 上 』’ i 那么相应得到 个点(x ,Y ), —l,2,⋯, . 假如这 个点在 x—y坐标系下基本上是在一条直线上(允许一定的试验误差),那么就可以认为“t ≤⋯≤£ 是来 自某个 Pareto总体”这个假设是可以接受的,然后画出此直线 ,定出它的斜率与截距 ,进 而还可以大致获得 Pareto分布中两个参数的估计. 2 Pareto分布 的 R 检验法 2.1 R。检验统计量的提 出 弓I理 l 若 T~Pareto(O,口),贝Ⅱx=In T~Exp(1n ,口),Z=a(X--In )~Exp(1). 引理 2 若 Z㈩,⋯,Zc 为来 自指数分布 Exp(1)的容量为 的样本的次序统计量 ,则 一 - 1’2'⋯ 川 , iAj . C0 Z(¨ - 1’2'⋯ 川. 设 t ≤⋯≤£,是来自 Pareto(a, )的容量为 的样本的前 r个次序统计量.令 五=In t , 一口(z 一 ln ),则 z ≤⋯≤ 可看成来 自标准指数分布 Exp(1)的容量为 的样本的前 r个次序统计量. 与 z 之间有下述关系: 痢一 ( l,⋯ , ,) , V= ( ), f, = 1,2,⋯ ,r. 那么可把 z 写成如下形式: 五 = In + + £ , = l,2,⋯ ,r, (5) 口 其 中痢=( “,m,) 是均值为 0的 r维随机向量. 作一个直角坐标系,横轴示 z,,纵轴表示 m .根据(4)式 ,在这个坐标系 中,r个点(z , ),⋯, (z,,m,)应该大致成一条直线 ,微小的差别是 由随机误差 e 造成的.类似于正态分布检验 的 w 检验统 计量嘲 ,可以计算 一(z 一,z,) 与 痢=( ,⋯, ,) 之间的相关系数 R,来定量地表示这些点接近直 线的程度. (∑(z 一 )( 一厩))。 R。= 上 L — — — _ - — — 一 = (∑(1n t —In )( 一厉))。 =1 (6) ∑(z 一 )。∑( --m)。 ∑(1n 一In )。∑( ,一历)z I一 1 f= 1 = 1 = l 其中 一÷∑z ,历=÷∑ 分别为诸z 与 的算术平均值, 一(II )V 为诸£ 的几何平均值. I= 1 。 l= 1 = l R。越接近 l, 与扁 之间的线性关系就越明显.R。可以用来刻划 r个点(z。, 。),⋯,(z,, ,)接近直线 的程度.因此,我们选用 尺。作为检验来 自 Pareto分布假设的检验统计量. 2.2 尺。检验的拒绝域 引理 3 在 Pareto分布假设成立时,R。的分布仅与 ,r有关. 证 设总体为 Pareto分布,则样本 t 为来 自Pareto分布的次序统计量,令 ----In t ,则 =口(z 一 ln )可看成来 自标准指数分布 Exp(1)的次序统计量,f:l,2,⋯,r. = . . = ¨ ) .. 2 ” (§ 一 ¨ _璺 = 五 』L — g 记 维普资讯 http://www.cqvip.com 徐州师范大学学报(自然科学版) 第 22卷 (∑(z 一 )( 一 ))。 R2一 ———— : —————————————————————————————一 一 (∑(z 一 )( 一历)) = 1 (7) ∑(z 一 ) ∑( 一丽)。 ∑( 一 ) ∑( 一历) i= 1 i= 1 一 1 i= 1 1 — 其中乏一 1∑z 为诸z 的算术平均值.所以R 的分布与参数a和0无关,仅与 ,r有关. i= 1 由于 R 是 r个数对(z。, 。),⋯,(z , ,)之间的相关系数的平方,所以 R 仅在[0,1]上取值.在 Pareto分布假设成立时 ,这 r个数对之间基本上有线性关系 ,R 的取值应接近于 1.因此 ,在给定显著水 平 0t后,R 检验的拒绝域应是如下形式 : {R ≤ R:}, 其中, 是 Pareto分布假设成立时 R 分布的 Ot分位数. 寻找 Pareto分布假设成立时统计量 R 的分位数是很重要的,有了它才能确定拒绝域.但是对一般 的 ,r,还没有明显的解析式来表示 R 的密度 函数.这时需要通过随机模拟,用样本分布函数来近似总 体分布函数.由于 R 的分布与参数 和Ot无关 ,仅与 ,r有关 ,这就保证了随机模拟的可行性. 3 实例 Hossain等引用了一个心脏移植手术后病人存活时间的例子Ⅲ.共研究了 15例经过心脏移植手术 的病人的存活时间 ,其 中有 2例病人在 3天内死去,认为手术不成功,故而删去这 2个数据.同时,有 3 例病人在观测结束时仍然活着,样本可以看作是在最后 1例观测到死亡的第 280天被截尾 了,即 一 13,r一10.表 1列出了病人的存活时间 £(单位 :d). 表 1 心脏移植病人的存活时间 Tab.1 Survival time of the patients after their heart transplant operation Xi ln f 一 Yi n _ ln m T l l — r 图 2 心脏移植病人存活时间的 Pareto分布图检验 Fig.2 Probability chan testing of survival time of the patients after their heart transplant operation 从图 2可以看 出,这 10个点在 X_y坐标系下基本在一条直线上 ,说明可以认为样本是来 自Pareto 分布的.进一步,我们利用 R 检验法来检验这一截尾样本 ,表 1中也计算出了容量为 的标准指数分布 Exp(1)第 个次序统计量的期望 ,代jk(6)式可得,R =0.978,查表知 R: .。。一0.836,显然未落入拒绝 域,可以接受原假设 ,认为样本来 自Pareto分布. 4 检验方法的功效 利用样本观测值检验总体是否来 自Pareto分布时,由于样本的随机性,不可避免地会产生两类错 误.一般把拒伪的概率称为该检验方法的功效 ,显然,功效越高 ,说明该检验方法对非 Pareto分布具有 的识别能力越高. 为了考察 R 检验法对各种常见非 Pareto分布的是否具有 良好的识别能力 ,也就是说 ,R 检验法 能否有效地拒绝掉来 自非 Pareto分布的数据 ,这里经过 20 000次随机模拟,计算出了备择分布情况下 检验的功效. 首先考察 R 检验关于 Exp(0.5)分布的功效.对不同的 ,r,表 2列出了相应的功效值. 6 4 9 5 O 9 2 1 1 3 5 4 6 3 5 1 5 6 6 7 5 1 7 4 1 9 7 6 6 7 O 1 1 2 3 3 4 5 6 7 ● ● ● ● ● ● ● ● ● ● O O O O O O O O O O 9 1 9 2 3 4 4 7 9 9 3 3 3 8 9 O 6 4 7 2 5 5 6 6 6 O 3 1 6 8 4 3 7 7 4 O 5 3 6 O 6 3 O 8 7 7 7 9 2 8 O 1 2 2 3 4 5 6 8 9 ■ ● ● ● ● ● ● ● ● ● O O O O O O O O O O 5 O 5 O 5 O 5 O 5 O 2 5 7 O 2 5 7 O 2 5 6 2 8 5 1 7 3 O 6 2 O 1 1 2 3 3 4 5 5 6 ● ● ● ● ● ● ● ● ● ● O O O O O O O O O O O 4 7 2 1 5 3 7 5 O 5 9 3 6 4 4 8 8 5 9 O 4 8 5 6 3 8 1 6 7 8 5 5 3 8 4 8 4 2 4 O 3 9 6 2 9 5 4 1 3 7 1 2 6 8 O 1 8 9 6 ● ● ● ● ● ● ● ● ● ● 2 3 3 3 3 4 4 4 4 5 5 3 7 9 6 O 4 7 6 O 1 2 2 3 4 6 6 2 3 8 1 1 々 1 2 3 4 5 6 7 8 9 O 维普资讯 http://www.cqvip.com 第 3期 李海芬等 :Pareto分布的检验 表 2 备择分布为 Exp(0.5)分布时检验的功效(a一0.10) Tab.2 The testing power.f Exp(0.5)as an alternative distribution 3 4 5 6 7 8 9 1o 11 12 1 3 1 4 15 16 17 18 19 2o 21 22 23 24 25 26 27 28 29 30 3 o.21 4 O.2O 0.34 5 o.20 0.31 o.47 6 O.2O 0.26 o.4o o.54 7 O.19 0.25 o.35 o.47 O.62 8 o.18 o.24 O.33 o.45 o.56 o.70 9 0.17 0.23 O.33 o.42 o.52 o.63 0.76 1o O.16 o.22 o.31 o.41 o.5o o.60 o.71 0.8O 11 0.16 0.21 o.31 0.39 o.48 .58 0,66 0.76 o.84 12 O.15 0.21 o.30 o.38 o.48 o.57 o.64 0.72 o.8O 0.87 13 0.15 0.21 0.29 o.38 o.46 0.55 0.64 0.71 o.78 0.84 0.89 14 0.15 0.21 o.28 o.37 o.46 O.55 O.61 O.69 o.76 0.81 o.87 0.92 15 0.14 o.20 o.29 o.37 o.45 o.53 O.61 o.67 o.74 o.8o o.85 O.9O o.94 l6 0.15 0.20 O.28 O.36 o.44 O.52 o.56 o.67 O.72 o.79 0.84 o.88 o.92 o.96 17 O.14 O.21 O.28 o.36 o.44 o.50 O.58 o.67 0.72 o.78 0.83 O.87 o.91 o.94 O.96 18 0.15 o.2o O.28 o.36 o.44 o.51 o.58 o.66 O.72 o.77 0.82 O.86 o.90 o.93 o.95 o.97 19 o.14 O.2O O.27 o.36 o.43 o.52 O.58 o.64 o.71 o.77 0.81 O.85 O.89 o.92 0.94 0.96 o.98 20 0.14 0.2o o.27 o.36 o.42 O.5O O.58 O.65 o.71 o.76 0.81 O.84 O.88 o.91 o.94 o.96 0.97 o.98 2l 0.14 0.20 o.28 o.35 0.43 0.51 o.59 o.64 o.7o o.75 0.80 0.84 0.88 0.90 o.93 o.95 o.96 o.98 o.99 22 O.14 0.2O O.27 o.35 0.44 o.5o o.58 o.63 o.69 o.74 0.79 o.83 o.87 o.90 O.92 o.94 0.96 o.97 O.98 0.99 23 o.13 0.19 o.28 o.35 0.42 o.51 o.58 o.63 o.69 o.74 o.79 O.83 o.86 o.90 o.92 o.94 0.96 o.97 o.98 o.99 o.99 24 0.14 0.19 o.27 o.35 0.43 o.50 o.57 o.63 0.69 o.74 0.79 o.83 o.85 o.89 o.92 0.94 0.95 O.96 o.98 0.99 o.99 0.99 25 o.14 0.19 o.27 O.35 0.41 o.50 o.57 O.63 O.69 o.74 O.78 o.82 O.86 o.88 o.91 O.93 o.95 O.96 o.97 o.98 o.99 o.99 1.00 26 0.14 0.19 o.27 0.34 0.42 0.49 o.55 o.62 0.68 o.74 0.78 O.82 o.86 O.89 0.91 0.93 o.94 0.96 o.97 0.98 o.99 o.99 l_0o 1.oo 27 o.14 o.2o o.27 o.34 o.41 o.49 o.57 o.63 0.67 o.73 0.77 o.82 o.85 o.88 O.91 0.93 o.95 o.96 o.97 O.98 o.99 o.99 o.99 1.O0 1.OO 28 0.14 o.2o o.27 0.35 0.42 0.49 O.56 O.62 0.68 o.73 O.78 o.81 0.85 0.88 0.90 o.92 o.94 0.96 o.97 o.98 0.98 o.99 O.99 1.OO 1.OO 1.oo 29 0.14 o.19 o.27 o.34 0.42 o.49 O.55 o.62 0.68 o.72 o.78 o.81 o.84 O.87 0.91 O.92 o.94 0.95 o.96 o.97 O.98 o.99 o.99 o.99 1.OO 1.oo 1.oo 30 0.13 O.19 0.27 0.35 0.42 o.50 O.55 0.61 0.68 0.72 O.77 0.81 0.84 o.87 0.90 O.92 o.94 0.95 0.97 o.97 0.98 o.99 0.99 0.99 1.OO 1.oo 1.0o 1.O0 从表 2中可以看出,检验的功效随着样本容量 及截尾数 r的增加而提高.如当 一11,r=ll时, 功效的估计值为 0.84,也就是说当 R 检验法犯第 一类错误 的概率被控制在 0.10以内时,能使来 自 Exp(0.5)分布的数据被拒绝的概率达到 0.8O以上.达到这一的 ,r组合有很多 ,如 =12时,r一 12; 一13时,r≥12...·; 一30时,r≥14等等.总之 , 最好不能小于 ll, 越大,对 r的要求就越宽松. 类似地 ,考察了一些可能出现的常用备择分布族,如指数分布、威布尔分布、伽玛分布等 ,通过模拟 计算发现,对于指数分布、威布尔分布而言,参数的选择与检验功效的估计无关 ,这是因为它们都属于对 数位置尺度参数族,因此只需考虑威布尔分布作为备择分布的情况.而伽玛分布检验功效的估计与其形 状参数 a有关 ;a越大,检验功效越差,用 R。检验法进行识别的效果也越差.由于篇幅的关系,表 3仅列 出了三种典型备择分布情况下,检验的功效能够达到 0.80以上的 ,r组合.对威布尔分布类而言,样本 容量只要保证在 1O以上,截尾数不太小时,就能满足要求 ;对伽玛分布,当 a<1时,样本容量在 9以上 即可,当 a>1时,样本容量却要求在 12以上. 表 3 三种备择分布下检验功效≥O.80的 n。r组合 Tab.3 The ,r combination if the testing power≥ O.80 with 3 alternative distributions 5 与其它检验 方法 的比较 由引理 1可知 ,Pareto分布与双参数指数分布有直接的关系,因此在数据分析时采用对数变换 ,就 可以利用双参数指数分布的检验方法进行分布的检验 了.文献E53提到过一种针对参数指数分布的检验 方法 ,这里记为 检验法.具体检验过程如下: 对一容量为 、截尾数为 r的样本(£ ≤⋯≤ t,)作如下变换 : 1: nln£1, 3,2一 ( 一 1)(In£2一 In£1), ⋯ , ,一 ( — r+ 1)(In£,一 In t,-1), 维普资讯 http://www.cqvip.com 16 徐州师范大学学报(自然科学版) 第 22卷 f ∑ u 一 ;z_, i一 2,⋯,r一1. ∑Y, J一2 检验统计量 =一2 In“ ,可以证明其服从 自由度为 2(r--2)的 分布 引.当 Pareto分布假设 。 ‘ i。。 = 。 — — 2 。 成立时,统计量 的取值不能太大,也不能太小,给定显著水平 a后 ,取 { ≤ ;(2(r一2))或 ≥ ;(2(r一2))} 为检验的拒绝域. 表 4列出了全样本情况下三种备择分布不同检验方法检验功效的比较,可以看出,R。检验法对威 布尔分布类和 a<1时的伽玛分布有较好功效 ,但 a>1和 ≥15时对伽玛分布的功效不如 。检验法. 表 4 全 样本 情 况下 三种 备择 分 布 不 同检 验方 法 检验 功效 的 比较 Tab.4 The comparison of the testing power between two methods of 3 alternative distributions for the whole sample Weibull(0.5,1) Gamma(0.5,1) Ganamal(2,1) Weibull(0.5,1) Gamma(0.5,1) Gammal(2.1) “ Rz R Rz “ Rz Rz Rz 3 0.208 0.126 0.238 0.140 0.193 0.117 17 0.960 0.946 0.984 0.960 0.919 0.924 4 0.339 0.253 0.393 0.279 0.304 0.223 18 0.970 0.960 0.990 0.971 0.932 0.940 5 0.456 0.371 0.538 0.422 0.416 0.333 19 0.978 0.964 0.994 0.979 0.950 0.947 6 0.538 0.485 0.621 0.539 0.474 0.436 20 0.980 0.973 0.996 0.981 0.957 0.963 7 0.629 0.569 0.703 0.621 0.552 0.517 21 0.984 0.980 0.996 0.987 0.963 0.966 8 0.696 0.641 0.774 0.686 0.620 0.598 22 0.989 0.983 0.998 0.987 0.972 0.971 9 0.747 0.709 0.827 0.742 0.673 0.653 23 0.992 0.986 0.999 0.993 0.978 0.979 10 0.797 0.757 0.874 0.799 0.728 0.703 24 0.996 0.987 0.998 0.993 0.982 0.983 11 0.836 0.806 0.905 0.835 0.765 0.756 25 0.995 0.991 0.999 0.996 0.987 0.988 12 0.871 0.837 0.925 0.872 0.804 0.804 26 0.997 0.994 1.000 0.996 0.986 0.990 13 0.896 0.863 0.944 0.899 0.835 0.833 27 0.997 0.995 1.000 0.996‘ 0.991 0.991 14 0.919 0.891 0.961 0.914 0.867 0.859 28 0.999 0.995 1.000 0.998 0.994 0.995 15 0.935 0.916 0.972 0.936 0.886 0.890 29 0.998 0.997 1.000 0.997 0.993 0.994 16 0.951 0.929 0.979 0.950 0.905 0.909 30 0.999 0.997 1.000 0.998 0.996 0.995 参考文献: r1] Pareto V.Cours d Economie PolitiquerM].Lausanne and Paris:Rouge and Cie,1987. [2] Arnold B C.Pareto DistributionrM].Fairland,Maryland:International Co-operative Publishing House,1983. [3] 梁小筠.正态性检验[M].北京 :中国统计出版社 ,1997. [4] Hossain A M,Zimmer W J.Comparisons of methods of estimation for a Pareto distribution of the first kindrJ]. Co mmunications in Statistics:Theory and M ethods,2000,29(4):859. [5] 茆诗松 ,王静龙.数理统计[M].上海 :华东师范大学 出版社 ,1990.299—303. The Testing of Pareto Distribution LI Hai—fen,MAOShi—song (Department of Statistics,East China Normal University,Shanghai,200062.China) Abstract:In this paper the probability chart testing method and correlation coefficient R。testing method of Pareto distribution are given.The R testing power for common non—Pareto distribution is computed in order to verify this method. Key words~Pareto distribution;testing of distribution;probability chart method;correlation co— efficient R testing method 维普资讯 http://www.cqvip.com
/
本文档为【帕累托分布】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。 本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。 网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。

历史搜索

    清空历史搜索