s h a n g h a i i n s t i t u t e o f t e c h n o l o g y
School of Economics & Management
.
《统计学》— 方差
陆海波
上海应用技术学院 经济与管理学院
2014-04-01
Slide 1/24.
s h a n g h a i i n s t i t u t e o f t e c h n o l o g y
引起钢筋长度差异的原因 (Xm14-00)
钢筋时航天飞机引擎的关键组件之一, 其长度必须为
41.387cm. 但车间管理员发现生产出的成品的长度存在差
异, 有时候由于钢筋过长或过短, 只能废弃或返工. 车间管
理员确信, 造成差异的部分原因在于设计制造
的方式,
特别地, 他认为机器与机器之间和操作人员与操作人员之间
的不同造成了这些差异. 为找出事实的真相, 他组织了一个
实验. 3 位员工每人在 4 台机器上各生产 5 根钢筋.
测
量钢筋长度判断机器和员工是不是造成钢筋长度差异的真
正原因.
.
陆海波 —《统计学》— 方差分析 — 2014-04-01 — Slide 2/24
s h a n g h a i i n s t i t u t e o f t e c h n o l o g y
方差分析 (analysis of variance, ANOVA):
通过分析数据的方差, 判断总体均值之间是否存在较大差异
• 方差分析的最早应用之一是在 20 世纪 20 年代, 用于
判断施肥情况的不同是否会影响农作物产量
.
陆海波 —《统计学》— 方差分析 — 2014-04-01 — Slide 3/24
s h a n g h a i i n s t i t u t e o f t e c h n o l o g y
单因素方差分析
表 : 独立
的抽样
总体 1 总体 2 : : : 总体 k
均值 =�1, 方差 =�21 均值 =�2, 方差 =�22 : : : 均值 =�k, 方差 =�2k
样本容量 n1 样本容量 n2 : : : 样本容量 nk
均值 =�x1, 方差 =s21 均值 =�x2, 方差 =s22 : : : 均值 =�xk, 方差 =s2k
.
陆海波 —《统计学》— 方差分析 — 2014-04-01 — Slide 4/24
s h a n g h a i i n s t i t u t e o f t e c h n o l o g y
投资股票市场的资产比例 (Xm14-01)
在最近的十年里, 股票经纪人工作的方式发生了戏剧性的变
化. 网上交易已经变得越来越普遍了, 只需花费 7 美元. 与
之前相比, 现在投资股票市场已经变得越来越方便和便宜.
这些变化带来了什么影响呢? 为了回答这个问题, 一位金融
分析师随机抽取了 366 个美国家庭, 询问他们户主的年龄
和投资在股票市场的资产比例. 年龄类别为
• 年轻 (35 岁以下)
• 中年早起 (35 至 49)
• 中年晚期 (50 至 65)
• 来年 (65 岁以上)
该分析员想要判断是否资产比例会因股票所有人年龄的不
同而不同.
.
陆海波 —《统计学》— 方差分析 — 2014-04-01 — Slide 5/24
s h a n g h a i i n s t i t u t e o f t e c h n o l o g y
解: 已知数据是定距数据 (投资在股票市场的资产比例), 目
标是比较四个总体 (年龄段). 参数是四个总体均值
�1; �2; �3; �4. 原假设假定四个总体均值间不存在差异. 即
H0 : �1 = �2 = �3 = �4
采用方差分析方法确定是否存在足够的证据表明原假设是
错误的. 即备择假设为
H1 :最少有两个均值不相等
.
陆海波 —《统计学》— 方差分析 — 2014-04-01 — Slide 6/24
s h a n g h a i i n s t i t u t e o f t e c h n o l o g y
表 : 单因素方差分析的符号
1 2 j k
x11 x12 : : : x1j : : : x1k
x21 x22 : : : x2j : : : x2k
... ... ... ...
xn1 xn2 : : : xnj : : : xnk
样本容量 n1 n2 nj nk
样本均值 �x1 �x2 �xj �xk
.
陆海波 —《统计学》— 方差分析 — 2014-04-01 — Slide 7/24
s h a n g h a i i n s t i t u t e o f t e c h n o l o g y
检验量估计
检验估计量按一下基本原理进行
• 若原假设为真, 则总体均值全部相等
• 因而预期样本均值将十分接近
• 如果备择假设为真, 则某些样本均值之间可能存在很大
的差异
• 衡量各样本均值彼此之间接近程度的统计量称为组间
差异, 用 SST 表示, 意为组间平方和 (sum of squares
for treatments)
SST =
kX
j=1
nj(�xj � �x)2
.
陆海波 —《统计学》— 方差分析 — 2014-04-01 — Slide 8/24
s h a n g h a i i n s t i t u t e o f t e c h n o l o g y
从上式可以看出, 如果样本均值彼此接近, 则所有样本均值
将近似于总均值, 因此 SST 的值会很小. 若
�x1 = �x2 = � � � = �xk
则 SST = 0.
于是我们可以认为, 较小的 SST 能够支持原假设.
.
陆海波 —《统计学》— 方差分析 — 2014-04-01 — Slide 9/24
s h a n g h a i i n s t i t u t e o f t e c h n o l o g y
• 当统计量 SST 的值大到何种程度时, 我们才可以证明
拒绝原假设是合理的?
• 在本例中, SST = 3738:8. 这一数值是否已经足够大到
可以证明总体均值不同?
.
陆海波 —《统计学》— 方差分析 — 2014-04-01 — Slide 10/24
s h a n g h a i i n s t i t u t e o f t e c h n o l o g y
在本例中我们试图判断是否投资于股票市场的资产比例会
因为户主年龄的不同而不同. 然而, 除了年龄外, 还存在其
他的变量会影响资产比例, 如家庭收入、户主职业、家庭规
模等. 所有这些变量都是差异的来源, 我们将这些变化划为
一类吗统称为误差. 这部分差异由误差平方和 (SSE) 来衡
量
SSE =
kX
j=1
njX
i=1
(xij � �xj)2
=(n1 � 1)s21 + (n2 � 1)s22 + � � �+ (nk � 1)s2k
.
陆海波 —《统计学》— 方差分析 — 2014-04-01 — Slide 11/24
s h a n g h a i i n s t i t u t e o f t e c h n o l o g y
组间均方
MST = SSTk� 1
组内均方
MSE = SSEn� k
最后定义检验统计量为两个均方之比
F = MSTMSE
.
陆海波 —《统计学》— 方差分析 — 2014-04-01 — Slide 12/24
s h a n g h a i i n s t i t u t e o f t e c h n o l o g y
• 如果因变量服从正态分布, 则检验统计量 F = MSTMSE 服
从 F(k� 1;n� k)
• 拒绝域 V = fF > F�;k�1;n�kg
表 : 单因素方差分析的方差分析表
差异来源 自由度 平方和 均值平方 F 统计量
组内 k� 1 SST MST = SST/(k� 1) F = MSTMSE
组间 n� k SSE MSE = SSE/(n� k)
总差异 n� 1 SS
.
陆海波 —《统计学》— 方差分析 — 2014-04-01 — Slide 13/24
s h a n g h a i i n s t i t u t e o f t e c h n o l o g y
检查必要条件
• 方差分析的 F 检验要求随机变量必须服从等方差的正
态分布
• 巴特莱特 (Bartlett) 检验可检验方差是否相等
不满足必要条件
• 如果数据部服从正态分布, 可以用非参数检验方法
(KW 检验) 取代单因素方差分析
.
陆海波 —《统计学》— 方差分析 — 2014-04-01 — Slide 14/24
s h a n g h a i i n s t i t u t e o f t e c h n o l o g y
能否利用两总体均值差异的 t 检验代替方差分析?
• 方差分析判断是否有证据判断两个或多个总体均值之
间是否存在差异
• �1 � �2 的 t 检验是判断两个总体之间存在差异
.
陆海波 —《统计学》— 方差分析 — 2014-04-01 — Slide 15/24
s h a n g h a i i n s t i t u t e o f t e c h n o l o g y
不能用多个 t 检验代替 F 检验的原因有:
• 需要进行更多的计算, 工作量太大
• 最重要的, 进行多个检验会໔ࣖ犯第一类错误的可能
考虑一个比较六个总体的问题
• 如采用方差分析方法, 并将显著性水平设定为 5%. 则
有 5% 的可能会得出总体间存在差异, 但事实上这种差
异并不存在
• 为代替 F 检验, 需进行 15 个 t 检验. 每个检验都有
5% 的可能性会错误地拒绝原假设, 则犯一个或多个第
一类错误的概率为 54%
.
陆海波 —《统计学》— 方差分析 — 2014-04-01 — Slide 16/24
s h a n g h a i i n s t i t u t e o f t e c h n o l o g y
能否利用方差分析代替 �1 � �2 的 t 检验?
• 假设我们打算利用方差分析检验两个总体均值
H0 : �1 = �2
H1: 至少有两个均值不同
但是若我们要判断 �1 是否大于或小于 �2, 我们就不能使用
方差分析
• 此外, 方差分析要求各总体方差相等
.
陆海波 —《统计学》— 方差分析 — 2014-04-01 — Slide 17/24
s h a n g h a i i n s t i t u t e o f t e c h n o l o g y
能否利用方差分析代替 �1 � �2 的 t 检验?
• 假设我们打算利用方差分析检验两个总体均值
H0 : �1 = �2
H1: 至少有两个均值不同
但是若我们要判断 �1 是否大于或小于 �2, 我们就不能使用
方差分析
• 此外, 方差分析要求各总体方差相等
.
陆海波 —《统计学》— 方差分析 — 2014-04-01 — Slide 17/24
s h a n g h a i i n s t i t u t e o f t e c h n o l o g y
F 统计量和 t 统计量之间的关系:
检验有关 �1 � �2 的假设时有
F = t2
.
陆海波 —《统计学》— 方差分析 — 2014-04-01 — Slide 18/24
s h a n g h a i i n s t i t u t e o f t e c h n o l o g y
例 (Xr14-12): 一家户外黄铜路灯和邮箱的生产商收到了大
量关于产品过早腐蚀的投诉. 厂商认为, 问题是由于采用劣
质漆粉刷黄铜所导致的. 该厂老板打算更换目前的漆产品
供应商, 目前有五家其他厂商可供选择. 为了判断何者最佳,
老板分别用这五种漆各粉刷了 25 个黄铜邮箱并将这 125
个邮箱置于户外. 他记录了每个邮箱从开始使用到观察到
脱漆迹象的天数. 请问在 1% 的显著性水平下, 老板是否有
足够的证据得出这五家漆商的油漆存在差异?
.
陆海波 —《统计学》— 方差分析 — 2014-04-01 — Slide 19/24
s h a n g h a i i n s t i t u t e o f t e c h n o l o g y
双因素方差分析
• 检验两个或多个因素对随机变量的影响
• 运用方差分析来确定每个因素的水平之间是否存在差
异
• 固定效应方法: 仅仅解答试验中包含了因素的所有水
平的问题
.
陆海波 —《统计学》— 方差分析 — 2014-04-01 — Slide 20/24
s h a n g h a i i n s t i t u t e o f t e c h n o l o g y
例: (Xm14-04) 比较不同受教育水平的人一生从事的工作数
量
经济体创造就业岗位的速度是衡量一个国家经济健康程度
的方式之一. 这个问题的一个方面是每个人从事过的工作
数目. 在一项调查中吗询问了美国 37 岁至 45 岁的人他们
一生中从事过的工作数量, 同时记录了被调查者的性别和受
教育水平. 受教育水平的类别为
• 高中以下 (E1)
• 高中 (E2)
• 大学未毕业 (E3)
• 大学毕业及以上 (E4)
现有性别和教育水平八种组合的数据. 我们能否推断出性
别和教育水平之间确实存在差异?. 陆海波 —《统计学》— 方差分析 — 2014-04-01 — Slide 21/24
s h a n g h a i i n s t i t u t e o f t e c h n o l o g y
首先按单因素方差分析来解此题. 一共有八类, 检验如下假
设
H0 : �1 = �2 = � � � = �8
H1 :至少有两个均值不等
• p 值为 0:0467, 可以得出上述八类人的工作数量存在差
异
• 但这个统计结果带来了更多的问题
• 是由性别差异造成的?
• 由受教育水平不同造成的?
• 是否存在性别和教育水平的组合 (交互作用) 引起?
.
陆海波 —《统计学》— 方差分析 — 2014-04-01 — Slide 22/24
s h a n g h a i i n s t i t u t e o f t e c h n o l o g y
首先按单因素方差分析来解此题. 一共有八类, 检验如下假
设
H0 : �1 = �2 = � � � = �8
H1 :至少有两个均值不等
• p 值为 0:0467, 可以得出上述八类人的工作数量存在差
异
• 但这个统计结果带来了更多的问题
• 是由性别差异造成的?
• 由受教育水平不同造成的?
• 是否存在性别和教育水平的组合 (交互作用) 引起?
.
陆海波 —《统计学》— 方差分析 — 2014-04-01 — Slide 22/24
s h a n g h a i i n s t i t u t e o f t e c h n o l o g y
表 : 双因素试验的方差分析表
差异来源 自由度 平方和 均方 F 统计量
因素 A a� 1 SS(A) MS(A) = SS(A)(a�1) F = MS(A)MSE
因素 B b� 1 SS(B) MS(B) = SS(B)(b�1) F = MS(B)MSE
交互 (a� 1)(b� 1) SS(AB) MS(AB) = SS(AB)(a�1)(b�1) F = MS(AB)MSE
误差 n� ab SSE MSE = SSE/(n� ab)
总计 n� 1 SS
.
陆海波 —《统计学》— 方差分析 — 2014-04-01 — Slide 23/24
s h a n g h a i i n s t i t u t e o f t e c h n o l o g y
例: (Xr14-55) 多数大学教授喜欢让学生积极地参与到课堂
中来. 他们喜欢学生向他们提问, 或是回答他们提出的问题,
使课堂气氛更有趣, 课堂更有意义. 许多教授寻找各种方式
来鼓励他们的学生参与到课堂中来. 一位纽约社区学院的
统计学教授认为, 有许多外部因素会影响学生参与到课堂
中, 而时间和桌椅的形状是其中的两个. 于是, 他组织了一
次实验. 他为各有 60 名学生的六个班级安排了一学期的课
表. 两个班级安排在上午 9 点, 两个班级安排在下午一点,
两个安排在下午 4 点. 三次上课时间中的每一次都安排其
中一个班级在一行有 10 个座位的教室上课; 另一个班级在
U 型的阶梯教室上课, 这样学生不仅可以看到老师, 也可以
看到他们的同学. 他记录了每个班级的学生提问和回答问
题的次数, 以此来衡量同学们在课堂上的参与程度. 从这些
数据中, 教授能得出什么结论?.
陆海波 —《统计学》— 方差分析 — 2014-04-01 — Slide 24/24