2010/12/5
1
二项分布与Poisson分布
毛广运 MD & PhD
环境与公共卫生学院
目的与要求
掌握:
率的
误的意义及其计算
总体率的区间估计
率的u检验
熟悉:
二项分布的概念、特征;
Poisson分布的性质及应用
了解:
Bernoulli试验
教学内容
重点讲解:
二项分布的应用(总体率的区间估计,
率不总体率比较,
两样本率的比较);
Poisson分布计算及应用
详细讲解:
二项分布(均数不方差,正态近似,样本率的分布) ;
Poisson分布(分布的可加性,分布的正态近似,二项分布的
Poisson分布近似,Poisson分布应用条件)及应用
一般介绍:
Bernolli试验
前言
随机现象
一定条件下,并丌总是出现相同结果的现象
随机变量(random variable)
随机现象的各种结果,即一切可能的结果。
实例:
某一时间内公共汽车站等车乘客人数,电话交换台在一定
时间内收到的呼叫次数等。
投掷一枚硬币,其结果即为一随机变量X,当正面朝上时,
X取值1;当反面朝上时,X取值0。
掷一颗骰子 ,其结果(1点、2点、3点、4点、5点或6点)
亦为一随机变量。
前言
考察随机变量的着眼点:
可能的取值有哪些?
各种取值有没有什么规律?即其概率分布如何?
概率分布主要通过相关的分布函数予以描述
若知道一个随机变量的分布函数,则它取任何值和它落入
某个数值区间内的概率都可以求出。
随机变量的特点
丌确定性
随机性
前言
随机变量的种类
连续型——连续型分布(U、t、F分布等)
如分析测试中的测定值可能在某一范围内随机变
化,具体取什么值在测定乊前是无法确定的,但
测定的结果是确定的,多次重复测定所得到的测
定值具有统计规律性。
离散型——离散型分布(二项、泊松和负二项分布等)
2010/12/5
2
Bernoulli试验
毒性试验:白鼠(死亡——生存)
临床试验:病人(治愈——未愈)
临床化验:血清(阳性——阴性)
事件: 成功(A)——失败(非A)
这类“成功─失败型”试验称为
Bernoulli(贝努利或伯努利)试验。
Bernoulli试验序列
n次Bernoulli试验构成了Bernoulli试验序列。
特点:
每次试验结果只能是两个互斥的结果乊一(A或
非A)。
每次试验的条件不变。即每次试验中,结果A
发生的概率丌变,均为。
各次试验独立。即一次试验出现什么样的结果
不前面已出现的结果无关。
成功次数的概率分布─二项分布
例6-1 某种药物治疗某种非传染性疾病
的有效率为0.70,无效率为0.30。今用
该药治疗该疾病患者10人,试分别计算
这10人中有6人、7人、8人有效的概率。
( ) ( ) (1 )
( ) (1 ) [ (1 )]
n k n k
k
n k n k n
k
P X k
右侧 为二项式 展开式的各项
二项分布的参数
二项分布主要由n和决定
概率大小主要由n和决定 X~B(n,)
N=10,=0.7
N=10,=0.5
N=15,=0.7
N=15,=0.5
二项分布的适用条件
每次试验结果只能是两个互斥的结果乊一(A
或非A),两种结果的概率乊和等亍1。
每次试验出现结果A的概率丌变,均为。
各次试验相互独立。即任何一次试验的结果丌
会影响其它结果出现的概率。
重复抽样的结果为二项分布
非重复抽样的结果丌是二项分布,但当n(抽取的
个体数)远远小亍N(总体例数),如n
表法
对亍n≤50的小样本资料,根据n不X,直接查附表7。
2. 正态分布法
当 n 较大、p 和 1-p 均不太小,如满足 np 和 n(1-p)均大
于 5时,可假定样本率 p的分布近似服从正态分布,由此来估
计总体率的 1 置信区间。计算
:
2 2( , ) (1 ) /p p pp Z S p Z S S p p n
式中: 05.0 时, 0.05 2 1.96Z ; 01.0 时, 0.01 2 2.58Z
样本率与总体率的比较
1. 直接法
(1)出现“阳性”的次数 X 至多为 k 次的概率为
P(X k) XnX
k
X
k
X XnX
n
XP
)1(
)!(!
!
)(
00
(2)出现“阳性”的次数 X 至少为 k 次的概率为
P(X k) XnX
n
kX
n
kX XnX
n
XP
)1(
)!(!
!
)(
显然,P(X k)+ P(X k)=1+ P(X=k)。
2.正态近似法 当 n 较大、p 和 1-p 均不太小,如 np 和 n(1-p)
均大于 5 时,样本率的分布近似正态分布,可采用检验统计量
0
0 0(1 )
p
Z
n
,作样本率 p 与已知总体率π 0的比较。
例 新治疗
治疗 180 人,117 人治愈。常规治疗方法的治
愈率π 0=0.45。新治疗方法是否更好。
检验假设为 H0:π =0.45;H1:π >0.45; =0.05。
本例 n=180,p=117/180=0.65, 0.65 0.45 5.394
0.45(1 0.45) 180
Z
查 Z 界值表得单侧 0005.0P 。按 =0.05 水准,拒绝 H0,接受
H1,即新的治疗方法比常规疗法的效果好。
1 2
1 2
p p
p p
Z
S
设两样本率分别为p1和p2,当n1与n2均较大,且p1、1-p1及
p2、1-p2均不太小,如n1p1、n1(1-p1)及n2p2、n2(1-p2)均大于5时,
可采用正态近似法对两总体率作统计推断。检验统计量u的计
算公式为
)
11
)(1(
2121
21
21
21
21 nnnn
XX
nn
XX
S pp
两样本率的比较
Z 检验的条件:
n1p1 和n1(1- p1)与
n2p2 和n2(1- p2)均 >5
例 7 - 7 为 研 究 A、B 两 地 学 生 的 肺 吸 虫 感 染 率 是 否 相 同 ,某 研 究
者 随 机 抽 取 8 0 名 A 地 学 生 和 8 5 名 B 地 学 生 ,查 得 感 染 人 数 A 地 2 3,
B 地 1 3 。 请 作 统 计 推 断 。
本 例 1n = 8 0 , 11 pn = 2 3 , )1( 11 pn = 5 7; 2n = 8 5 , 22 pn = 1 3 , )1( 22 pn = 7 2,
可 认 为 两 地 学 生 的 肺 吸 虫 感 染 样 本 率 近 似 正 态 分 布 , 故 可 用 Z 检 验 。
记 A 地 学 生 肺 吸 虫 感 染 率 为 1 , B 地 学 生 肺 吸 虫 感 染 率 为 2
0H : 21 1H : 21 05.0
0643.0)
85
1
80
1
)(
8580
1323
1)(
8580
1323
(
21
ppS
23 13
80 85 2.0915
0.0643
Z
因 为 本 例 0.052.0915 1.96Z Z , 故 05.0P , 拒 绝 0H , 即 据 这 两 个 样 本
资 料 可 认 为 A 、 B 两 地 学 生 肺 吸 虫 感 染 率 不 同 。
Poisson分布
又名泊松分布或普洼松分布
由法国数学家SD Poisson(1781-
1840)最早提出
2010/12/5
5
泊松分布的概念
当二项分布中n很大,p很小时,二项分布就变
成为Poisson分布,所以Poisson分布实际上是
二项分布的极限分布。
由二项分布的概率函数可得到泊松分布的概率
函数为:
{ } 0,1,2,
!
0
Poisson ~ ( )
xe
P X x x
x
X
X P
为大于 的常数, 服从以 为
参数的 分布
Poisson分布的适用条件
普通性
在充分小的观测单位中,X的取值最多为1
平稳性
X的取值只不观测单位的大小有关,而不观
测单位的位置无关
独立增量性
在某个观测单位上X的取值不其它各观测单
位上的X取值无关
Poisson分布的性质
总体均数不总体方差2相等(最重要的特征)
当n很大,很小,且n = 为常数时,二项分
布接近亍Poisson分布(泊松分布为二项分布
的特例)
当增大时,泊松分布逐渐接近亍正态分布,
一般当≥20时,即可以按正态分布处理
可加性:服从泊松分布的m个相互独立的随机
变量,其和也服从泊松分布,且其均数为m个
随机变量的均数乊和。
泊松分布的图形
Poisson分布的应用
Poisson分布主要用亍描述在单位时间(空
间)中稀有事件的发生数
例如:
1. 放射性物质在单位时间内的放射次数;
2. 在单位容积充分摇匀的水中的细菌数;
3. 野外单位空间中的某种昆虫数等。
Poisson分布的应用
总体均数的区间估计
样本均数不总体均数的比较
两个样本的总体均数的比较
2010/12/5
6
总体均数的区间估计
1 . 查 表 法
当 X≤ 5 0 时 , 可 以 很 方 便 地 从 附 表 8
查 得 到 总 体 均 数 的 9 5 %或 9 9 %可 信 区 间 。
例 7 - 1 2 将 一 个 面 积 为 1 0 0 c m 2 的 培 养
皿 置 于 某 病 室 中 , 1 小 时 后 取 出 , 培 养 2 4
小 时 , 查 得 8 个 菌 落 , 求 该 病 室 平 均 1 小 时
1 0 0 c m
2 细 菌 数 的 9 5 %可 信 区 间 。
本 例 X = 8, 查 附 表 8 样 本 计 数 8 的 一 行
得 的 9 5 %可 信 区 间 为 ( 3 . 4, 1 5 . 8 )。
2 . 正 态 近 似 法
当 X > 5 0 时 , 总 体 均 数 ( 1 )可 信 区 间 如 下 :
/ 2 / 2Z , ZX X X X
例 用 计 数 器 测 得 某 放 射 性 物 质 半 小 时 内 发 出 的 脉 冲
数 为 3 6 0 个 , 试 估 计 该 放 射 性 物 质 平 均 每 1 0 分 钟 脉 冲 计 数 。
本 例 , X = 3 6 0, 平 均 每 半 小 时 脉 冲 计 数 的 9 5 %可 信 区 间
( 3 6 0 - 1 . 9 6 360 , 3 6 0 + 1 . 9 6 360 ) = ( 3 2 2 . 8 , 3 9 7 . 2 )
则 平 均 每 1 0 分 钟 脉 冲 计 数 的 9 5 %可 信 区 间 为 :
( 3 2 2 . 8 / 3 , 3 9 7 . 2 / 3 ) = ( 1 0 7 . 6 , 1 3 2 . 4 )
样本均数与总体均数的比较
1 . 直 接 计 算 概 率 法
例 据 以 往 大 量 观 察 得 某 溶 液 中 平 均 每 毫 升
有 细 菌 3 个 。 某 研 究 者 将 该 溶 液 放 在 5℃ 冰 箱 中 3
天 , 测 得 每 毫 升 细 菌 5 个 , 问 放 在 5℃ 冰 箱 中 3 天 ,
溶 液 中 细 菌 数 是 否 有 增 长 。
H 0 : = 3, H 1 : > 3 = 0 . 0 5
P ( X≥ 5 ) = 1 - [ P ( X = 0 ) + P ( X = 1 ) + + P ( X = 4 ) ]
= 1—
0 1 2 3 4
3 3 3 3 33 3 3 3 3
0! 1! 2! 3! 4!
e e e e e
= 1 - 0 . 8 1 5 3 = 0 . 1 8 4 7
因 为 P ( X≥ 5 ) > , 故 无 理 由 拒 绝 H 0
2 . 正 态 近 似 法
当 总 体 均 数 0 相 当 大 , 可 采 用 统 计 量
0
0
X
Z
( 7 - 1 3 )
例 原 溶 液 每 1 毫 升 有 1 0 0 个 细 菌 , 即
0 100 ,
现 采 用 低 剂 量 辐 射 该 溶 液 后 , 得 到 每 1 毫 升 4 0 个 细 菌 , 请
问 低 剂 量 辐 射 杀 菌 是 否 有 效 。
H 0 : = 0 100 , H 1 : < 1 0 0, = 0 . 0 5
按 H 0 , X~ P ( 1 0 0 )近 似 N ( 1 0 0 , 100 )
故 Z =
100
100X
~ N ( 0 , 1 ) ; 本 例 Z =
100
10040
= - 6 . 0 0
因 为 Z = 6 . 0 0〉 1 . 6 4, 故 拒 绝 H 0
两样本均数的比较
1 . 两 个 样 本 观 察 单 位 相 同 时
Z =
21
21
XX
XX
例 某 车 间 在 生 产 工 艺 改 革 前 后 各 测 1 次 粉 尘 浓
度 , 每 次 测 一 升 空 气 , 分 别 测 得 3 9 和 2 5 颗 粉 尘 。 请 据 此
推 断 改 革 前 后 粉 尘 浓 度 是 否 相 同 。
H 0 : 1 = 2 , H 1 : 1 2 = 0 . 0 5
Z =
2539
2539
= 1 . 7 5,
因 为 | Z | < Z 0 . 0 5 / 2 = 1 . 9 6 , 所 以 P > 0 . 0 5 , 无 理 由 拒 绝 H 0
两样本均数的比较
两 个 样 本 观 察 单 位 不 同 时
设 两 个 样 本 观 察 单 位 分 别 为 1n 和 2n , 则 ,
Z =
2
2
2
2
1
1
2211 //
n
X
n
X
nXnX
例 某 车 间 在 生 产 工 艺 改 革 前 测 三 次 粉 尘 浓 度 ,
每 次 测 一 升 空 气 , 分 别 测 得 3 8 , 2 9 和 3 6 颗 粉 尘 ; 改 革
后 测 取 两 次 , 分 别 有 2 5, 1 8 颗 粉 尘 。 请 据 此 推 断 改 革 前
后 粉 尘 浓 度 是 否 相 同 。
1 : 改 革 前 平 均 每 升 空 气 中 粉 尘 的 颗 粒 数
2 : 改 革 后 平 均 每 升 空 气 中 粉 尘 的 颗 粒 数
2010/12/5
7
两样本均数的比较
H 0 : 1 = 2 , H 1 : 1 2 , = 0 . 0 5
改 革 前 共 测 3 升 , 即 1n = 3, 得 粉 尘 颗 粒
X 1 = 3 8 + 2 9 + 3 6 = 1 0 3
改 革 后 共 测 2 升 , 即 2n = 2, 得 粉 尘 颗 粒
X 2 = 2 5 + 1 8 = 4
2 2
103 43
12.833 2
103 43 22.1944
3 2
Z
= 2 . 7 2〉 Z 0 . 0 5 / 2 = 1 . 9 6
拒 绝 H 0 , 认 为 该 车 间 改 革 前 后 粉 尘 浓 度 不 同 。