1
CH5 多水平正交设计
二水平设计的特点是所需的试验次数少(在给定因子个数的前提下)。但是
在许多情况下我们要考虑三水平甚至更多水平的因子。当因子是分类变量,且
有三个或更多个类,或者因子是连续变量,但两水平的离散化不能令人满意时,
都需要考虑多于 2 水平的因子。一般情况下,如果试验是完全而且均衡的,则
方差
的一般原理已经在第 3 章中讨论过了。同时在 3.2 节中我们介绍了正
交试验设计的概念。正交设计是一类不完全、但具有优良性质的试验设计。在
这种设计下,各因子的主效应的估计是相互独立的,而且方差分析是简单直观
的。在本章中我们来进一步讨论多水平的正交设计。
在第 3 章中我们用给出了正交试验设计的一般定义:一个有 m 个因子和 n
次试验的设计称为是正交的,若它对任意两个因子构成完全、等重复试验。具
体地说,正交试验满足下面两个条件:
1) 每一因子的不同水平在试验中出现相同次数(均衡性);
2) 任意两因子的不同水平组合在试验中出现相同次数(正交性).
正交试验设计的
可以用一张
来表示, 这张表就称为“正交设计表”或
简称为“正交表”. 表 3.2.1 就是一张正交表. 一般, 正交表第一行为表头, 标明
每列所代表的因子, 最左一列标明试验的序号. 表中每列中的数字代表相应因子
的水平序号; 每行的数字代表在相应试验中各因子的水平序号. 在正交设计表
中,
1) 每列中不同数字出现的次数相同(试验的均衡性);
2) 每两列中不同的数字组合出现的次数相同(试验的正交性).
若一张正交表在 n 次试验中安排 k 个 t 水平因子,则记为 )( kn tL 。有的正交
表可以安排具有不同水平的因子。例如,若一张正交表在 n 次试验中安排 k1个
t1水平因子和 k2个 t2水平因子,则记为 )( 21 21
kk
n ttL ´ 。正交表的构造在数学上也
是很困难的,下面介绍一些正交表的基本知识及使用方法。
5.1 拉丁方
拉丁方是一种有 t 行 t 列的方形表格,其中的每一格中有一个拉丁字母,满
足:1)总共有 t个不同的拉丁字母;2)在每一行中,所有 t 个拉丁字母各出现
一次;3)在每一列中,所有 t个拉丁字母各出现一次。例如,表 5.1.1为一个 4
阶拉丁方,其中的四个拉丁字母为 a, b, c, d。这四个字母在每行中各出现一次,
同时在每列中各出现一次。也可以换一种说法:t 个字母,每个字母在每行每列
中都恰出现一次。
2
表5.1.14阶
拉丁方
cbad
badc
adcb
dcba
4
3
2
1
4321
一个拉丁方称为是“标准”的,若它的第一行和第一列中字母出现的顺序按拉
丁字母的自然排序。表 5.1.1 给出的是一个 4 阶标准拉丁方。一般,很容易得到
一个 t阶标准拉丁方。其构造方法是,先将 t 个字母按自然排序放置在第一行。
然后,从第二行开始,每行将上一行的字母依次向左移一格(上一行的第一个
字母变成当前行的最后一个)。这个构造原则对于列也同样适用。因此,t阶标
准拉丁方一定存在。
利用一个 t阶拉丁方可以在 n=t2次试验中安排三个 t 水平因子,使得试验具
有“正交”性。根据正交性要求,任意两个因子的所有水平组合在试验中出现
相同的次数。如果试验中所考虑的因子都是 t 水平的,则任意两个因子的水平
组合总数为 t2。因此,t 水平因子正交试验设计的试验次数必为 t2的整数倍,而
t2为保持正交性的最小试验次数。
利用 t 阶拉丁方安排三个 t 水平因子的正交试验的方法是:将行指标看成是
一个因子的 t个水平,列指标看成是第二个因子的 t 个水平,拉丁字母看成是第
三个因子的 t 个水平。拉丁方中的每一格对应一次试验,相应的因子水平组合
为(行号,列号,拉丁字母)。显然,这是一个正交试验。因为在每行上作 t 次
试验,对应 t 个不同列,且对应 t个不同字母;同样,在每列上作 t 次试验,对
应 t 个不同行,且对应 t 个不同字母;最后,在每个字母上作 t 次试验,对应 t
个不同行,且对应 t 个不同列。由于三个 t 水平因子的完全试验要求作 t 3次试
验,因此,用 t阶拉丁方作正交试验可以大大减少试验次数(完全试验的 1/ t)。
在实际用 t 阶拉丁方作正交试验时,为便于安排试验,可以将其展开为 t 2
行,三列的一张表,每行为一次试验;其三列分别依次对应拉丁方中的:行、
列、字母。这样的表就是正交设计表。例如,表 5.1.1 中的 4 阶拉丁方展开后就
得到表 5.1.2。
3
表5.1.2三个4水平因子、16次试验的正交设计表
3
2
1
4
2
1
4
3
1
4
3
2
)(4
)(3
)(2
)(1
)(3
4
3
2
1
4
3
2
1
4
3
2
1
4
3
2
1
)(2
4
4
4
4
3
3
3
3
2
2
2
2
1
1
1
1
)(1
16
15
14
13
12
11
10
9
8
7
6
5
4
3
2
1
d
c
b
a
字列行试验序号
正交设计下参数估计和方差分析的方法可一般地归纳如下:
1) 总均值的估计=试验数据的总平均值,
2) 某因子的某个水平主效应的估计
=该因子的该水平所出现的试验数据的平均值 - 总平均值,
3) 总平方和=(试验数据-总平均值)的平方和, 自由度=n-1,
4) 某因子的主效应平方和=重复数×参数估计的平方和, 自由度=水平数-1,
5)残差平方和=总平方和-(因子效应平方和的和), 自由度=总平方和自由
度-(因子效应自由度的和).
以上计算步骤可用下面的例子来说明。
例 5.1.1表 5.1.3中左边给出 3阶标准拉丁方,右边是由此拉丁方展开所
得到的n=9次试验的三个3水平因子的正交设计表。
三个因子的主效应分别记为 ja , kb , lg ,j,k,l=1,2,3。根据上述的步骤 1)
和 2),试给出 ja , kb , lg 的参数估计。记 9次试验数据的总平均值为 y。由于
第一因子的水平1出现在前三次试验中,因此 1a 的估计为
yyyy -++= )(
3
1ˆ 3211a
第二因子的水平3出现在试验3、6、9中,因此 3b 的估计为
4
yyyy -++= )(
3
1ˆ
9633b
第三因子的水平2出现在试验2、4、9中,因此 2g 的估计为
yyyy -++= )(
3
1ˆ 9422g
其它6个参数的估计均可循此法求得。
表5.1.3 3阶标准拉丁方与n=9次试验的三个3水平因子的正交设计表
bac
acb
cba
3
2
1
321
2
1
3
1
3
2
)(3
)(2
)(1
)(3
3
2
1
3
2
1
3
2
1
)(2
3
3
3
2
2
2
1
1
1
)(1
9
8
7
6
5
4
3
2
1
c
b
a
字列行试验序号
得到参数估计之后,按上述步骤 3)、4)、5)计算平方和和自由度。每个因
子的重复数为t,相应的自由度为 t-1。在例5.1.1中,第一因子的效应平方和
为 )ˆˆˆ(3)1( 232221 aaa ++=SS ,其自由度为 3-1=2。残差平方和为总平方和减所有因
子效应平方和,相应的自由度为t 2-1-3(t-1)=(t-2)(t-1)。
5.2 正交拉丁方
两个 t阶拉丁方,为便于识别,其中一个的元素为拉丁字母,另一个元素
为希腊字母。若将两个拉丁方重叠在一起时,t个拉丁字母和 t个希腊字母的
所有 t 2个组合各出现一次,则这两个拉丁方称为是相互正交的。下面为两个 3
阶正交拉丁方及它们重叠后的情形。
bac
acb
cba
3
2
1
321
agb
bag
gba
3
2
1
321
agb
bag
gba
bac
acb
cba
3
2
1
321
若存在两个正交的t阶拉丁方,则可以在t 2次试验中安排 4个t水平因子,
使得试验是正交的。作法是:按第一个拉丁方依行、列、字母的顺序展开得到
一个 3 列的正交表,再将第二拉丁方展开添加为第四列。参数估计以及平方和
与自由度的计算的方法与使用一个拉丁方时的方法一样。残差平方和的自由度
5
现在为t 2-1-4(t-1)=(t-3)(t-1)。一般,有可能存在 m个正交的 t阶拉丁方,
则可以在t 2次试验中安排 m+2个t水平因子,使得试验是正交的。
问
是:对任意给定的自然数t,是否至少存在一对正交的 t阶拉丁方?若
存在,最多有多少个两两正交的t阶拉丁方?对此问题的答案是:1)当t=2 和
6时,不存在正交拉丁方,除此以外,对所有自然数 t都至少存在一对正交的 t
阶拉丁方。2)t阶正交拉丁方若存在,最多不超过 t-1 个。上面所给的是唯一
的一对 3 阶正交拉丁方(3-1=2)。一般,当 t为素数或素数幂时,总可以构造
t -1个两两正交的t阶拉丁方。因此,当t =3, 4(22), 5, 7, 8(23), 9(32)时,可以构
造t-1 个两两正交的 t阶拉丁方。这 t -1 个两两正交的 t阶拉丁方可以展开成
为 n=t 2行和t +1列的正交表。
在用正交拉丁方安排试验时,比较方便的办法是将所有正交拉丁方展开成
正交表。这些表在某些专门的手册中可以找到。例如,中科院数学所编制的《常
用数理统计表》,科学出版社,1979年。
5.3 其它类型的正交设计
当t为素数或素数幂时,对任意自然数 k 和 n= t k,可以构造 n 次试验的 t
水平因子的正交表,列数为(n-1)/(t-1)。例如,当 n=27=33时,(n-1)/(2-1)=13。
因此可以构造 27次试验、最多容纳 13个三水平因子的正交表。
此外,还可以构造混合水平因子的正交表。例如,有在 n=18 次试验中安排
7 个三水平因子和 1 个二水平因子的正交表。这些正交表都可以在上面介绍的
文献中找到。
在使用各种正交表安排试验时,要注意:如果要作方差分析,则不能将所
有的列都用因子占满,否则就没有多余的自由度留给残差。