第 23 卷 第 6 期
2000 年 6 月
计 算 机 学 报
CH IN ESE J 1COM PU T ER S V o l. 23 N o. 6June 2000
人脸面部混合表情识别系统
金 辉1) 高 文2)
1) (哈尔滨工业大学计算机科学与工程系 哈尔滨 150001)
2) (中国科学院计算技术研究所 北京 100080)
收稿日期: 1999208204; 修改稿收到日期: 2000203219. 本课题得到国家自然科学基金 (69789301)、国家“八六三”高技术研究发展
( 86323062ZT 0320122) 及中国科学院“百人计划”的资助. 金 辉, 女, 1972 年生, 获博士学位, 主要研究领域为模式识别、图像处理.
高 文, 教授, 博士生导师, 主要研究领域为多媒体数据压缩、图像处理、计算机视觉、多模式接口、人工智能、虚拟现实等.
摘 要 根据心理学家对表情的研究和前人的工作成果, 在对动态表情图像序列的时序分析的基础上, 提出了对
混合表情的识别系统. 把脸部分成各个表情特征区域, 分别提取其运动特征, 按时序组成特征序列, 通过分析不同
特征区域所包含的不同表情信息的含义和表情的含量, 识别任意时序长度的、复杂的混合表情图像序列.
关键词 混合表情, 特征序列, 表情特征区域, 特征流
中图法分类号: T P18
The Human Fac ia l Com bined Express ion Recogn ition System
J IN H u i1) GAO W en2)
1) (D ep artm en t of Comp u ter S cience and E ng ineering , H arbin Institu te of T echnology , H arbin 150001)
2) ( Institu te of Comp u ting T echnology , Ch inese A cad emy of S ciences, B eij ing 100080)
Abstract T he hum an beings have no t on ly ra t ional th ink ing and logic reason ing ab ility, bu t a lso
percep tual th ink ing and emo tion s. In the aim of the natu ra l and in telligen t hum an2m ach ine
comm un icat ion, it is essen t ia l to m ake it po ssib le that the compu ter can understand and exp ress
the emo tion s. T h is paper summ arizes the study in the p sycho logy field and the fo rm er w o rk and
p ropo ses the com b ined exp ression recogn it ion system based on the analysis of the dynam ic
exp ression im age sequences. T he face is taken as being compo sed of severa l p rim ary exp ression
region s, in w h ich the mo tion featu res can be ex tracted and con st itu ted to eigen2sequences. T he
analysis of the arb it rary length of im age sequences of facia l exp ression s and com b ined exp ression
recogn it ion are p ropo sed and imp lem en ted by analyzing the respect ive exp ression m ean ing and the
exp ression con ten ts of d ifferen t p rim ary region s and u sing the m u lt i2fea tu re fu sion.
Keywords com b ined exp ression s, eigen sequences, p rim ary exp ression region s, eigen2f low
1 引 言
1. 1 意 义
在日常生活中, 人类的智能不仅表现在正常的
理性思维和逻辑推理能力上, 也表现在正常的情
感能力上. 在自然化的人机交互的目标中, 计算机
不能没有理解和表达情感的能力. 计算机科学中,
这种能力对促进计算机视觉系统建模和数据库的
发展都有直接的作用; 在语言学中, 可辅助唇读;
在行为学中能帮助人们研究和建立交流中的可信
度; 在商业应用方面、可视电话和电视会议方面以
及国际间商业政治的交流方面都有着重要的应用
价值.
1. 2 心理学领域的研究
生物学家达尔文所做的心理学实验表明, 面部
表情的含义不随地区和国家的不同而不同, 这一结
果具有普遍的意义. 对表情的分析可从维量分析和
分类这两种角度来研究. Ekm an 等人提出的表情六
种最基本的分类, 即高兴、惊奇、恐惧、悲伤、厌恶和
愤怒, 具有里程碑的作用. 人类所有的情绪表情都是
由这几种表情经过复杂的融合而产生的. 面部表情、
声调表情或身体姿态三方面构成了情绪表现, 而情
绪表现、情绪体验和情绪生理这三种因素又组成了
情绪的心理, 所以现实生活中的表情是千变万化的.
1. 3 识别的难点
用计算机来分析、识别面部表情是一个非常复
杂的问题, 它关键在于建立一个人类的情绪
(hum an emo tion s) 模型并把它们同人脸面部特征
及表情的变化联系起来. 但人脸是个柔性体, 不是
刚体, 很难用模型来精确描绘. 而且, 表情的识别还
依赖于其它方面的因素, 如: ①对人脸的熟悉程度.
②对各种表情的体验. 表情的表现有缓和的和激动
的、细微的和强烈的、轻松的和紧张的等诸多形式,
它的生理因素也是细微多变的, 所以非常复杂. ③
对脸部的注意程度. ④非视觉的因素也给计算机的
识别带来一定的困难. ⑤数据来源方面: 在严格的
实验中所引起的情绪表情状态带有突出的人为性
质, 这难以为实际的科学研究提供十分精确的依
据; 而在现实现场中观察的数据, 它的笼统性和复
杂性又使人难以进行数量分析, 这不能不说是人们
感到棘手从而触及它较少的原因之一. ⑥计算机本
身没有知识和经验; 光照的因素对图像的影响大,
这些也都是它的难点所在.
1. 4 计算机领域的研究
在计算机领域中, 关于面部表情识别的研究是
在最近几年才逐渐发展起来的. 文献[ 1 ]曾把人脸识
别方面特征脸 (eigenface) 的思想应用到了表情识别
中, 用静止的单帧表情图像来识别, 把表情投影到
“表情空间”. 这反映不出表情动作的变化, 没有包含
时间信息和运动信息; 扩展性不够好, 对混合表情难
以识别. 文献[ 2 ]实现的表情识别系统是用基于规则
的方法来识别较为夸张的单一表情.
在国际上,M ase [3 ]使用了光流来跟踪面部的运
动单元. L i H aibo [4 ] , Ro ivainen Pert t i 等人描述了
一种基于模型的方法, 把计算机图形学和计算机视
觉处理之间的反馈控制用于脸部图像编码系统.
Yacoob 和 D avis[5 ] 基 于 FA CS ( Facia l A ct ion
Coding System )编码, 在八方向上检测运动, 在一张
脸上有六个预定义、手工初始化的矩形区域, 使用简
化的 FA CS 规则识别六种表情. Ro senb lum M ark
和 Yacoob Yaser [6 ]等人用 RBFN 结构学习脸部特
征与人类情绪之间的相关性, 在最高一级识别情绪,
在中间一级决定脸部特征运动, 在低一级恢复运动
方向. 该系统也能实现识别六种基本表情. Peng
A n tai 和H ayes[7 ]研究了人脸表情的建模和合成, 用
基于模型的图像编码方法, 使用遗传算法来编码、合
成各种不同表情. E ssa [8 ]等用图像序列作为输入的
计算机视觉系统来观察脸部的运动单元. 视觉观察
与感知是通过优化估计光流方法与描绘脸部结构的
几何、物理肌肉模型相结合得到的. 这种建模方法产
生了一个随时间变化的脸部形状的空间
和一个
独立的肌肉运动群的参数化表征. 该系统只能分析
固定帧数 10 帧的图像序列, 而且不能分析混合表
情. W ang M ei[9 ]识别了六种基本面部表情的程度.
本文是把脸部分成多个表情特征区域, 分别提
取其运动特征, 按时序组成特征序列, 通过分析不同
特征区域所包含的不同表情信息和表情含量, 识别
任意时序长度的、复杂的混合表情.
2 表情的分类
由于表情产生的原因、表情表现的程度以及人
们对表情的控制能力和表情的倾向等诸多方面的原
因, 使表情的变化细微而复杂, 对表情特点的概括也
显得复杂. 依据心理学的研究, 对表情分析分类的
方法很多, 本文采用 Ekm an 的最基本表情的六种
分类方法. 对六种最基本表情的主要特点概括如
表 1 所示, 表 1 中所归纳的特点是单一情绪的面部
表情[10 ].
表 1 面部表情的主要特点
表情 额头、眉毛 眼睛 脸的下半部
惊奇
①眉毛被抬起来, 以致于变高变弯.
②眉毛下的皮肤被拉伸.
③皱纹可能横跨额头.
①眼睛睁大了, 上眼皮被抬高, 下眼皮下落.
②眼白可能在瞳孔的上边露出来, 下边的也可
能露出来.
下颌下落, 嘴张开, 以致于唇和齿分开, 但嘴
部并不紧张, 也不拉伸.
3066 期 金 辉等: 人脸面部混合表情识别系统
续 表
表情 额头、眉毛 眼睛 脸的下半部
恐惧
①眉毛抬起来并皱在一起.
②额头的皱纹只集中在中部, 而不横跨整
个额头.
上眼睑抬起来, 下眼皮非常紧张, 并且被拉上
来.
嘴张开了, 嘴唇或者轻微紧张, 向后拉; 或拉
长, 同时向后拉.
厌恶
眉毛压低了, 并压低了上眼睑. 在下眼皮下部出现了横纹, 脸颊推动其向上,
并不紧张.
①上唇被抬起来.
②下唇与上唇紧闭, 推动上唇向上, 嘴角下
拉, 唇轻微凸起.
③鼻子皱起来.
④脸颊被抬起.
愤怒
①眉毛皱在一起, 并且被压低了.
②在眉宇间出现了竖直皱纹.
①下眼皮非常紧张, 可能被或可能不被抬起.
②上眼皮是紧张的, 在眉的动作下可能被压低.
③眼睛愤怒地瞪着, 可能鼓起.
①唇有两种基本位置: 紧闭, 唇角拉直或
向下; 张开, 仿佛要喊.
②鼻孔可能是张大的, 这并不是必要的.
高兴
眉毛销微下弯 ①下眼睑下边可能有皱纹, 可能鼓起, 但并
不紧张.
②鱼尾纹从外眼角向外扩张.
①唇角向后拉并抬高.
②嘴可能被张大, 牙齿可能露出来.
③一道皱纹从鼻子一直沿伸到嘴角外部.
④脸颊被抬起.
悲伤 眉毛内角皱在一起, 抬高, 带动眉毛下
的皮肤.
眼内角的上眼皮被抬高. ①嘴角下拉.
②嘴角可能在颤抖.
3 表情的模型与编码
Ekm an 和 F riesen 提出的目前最广泛被采用的
人脸运动编码系统 FA CS 是人脸上所有导致脸部
运动的运动单元的枚举. 但 FA CS 有两个主要弱
点: ①运动单元是纯粹的局部化的空间模板. ②没有
时间描述信息, 只是一个启发式信息. 其中 FA CS
不包含情绪信息, 数据的分析只是单纯的描绘运动
单元AU , 或者把 FA CS 通过字典规则转化成情绪.
本文在此基础上提出了 FA CS’, 即 FA CS 转换的表
情编码, 把运动单元的运动转化成基于物理和肌肉
模型的运动特征流向量序列来对表情编码, 相应的
运动解释基于 FA CS 的规则, 同时克服了单纯
FA CS 的弱点.
表情识别的一个难点, 就是建立表情模型. 人脸
是一个柔性体而不是一个刚体, 很难把脸部的运动
与表情联系起来. 我们根据表情序列图像的特点, 建
立了动态的表情模型: O n set→A pp lica t ion→A pex
→R elease→O ffset.
4 特征区域的定位
人脸面部的感知系统, 包括唇读、人脸识别、表
情识别等的前提条件是已知人脸图像. 人脸图像定
位以后, 根据脸部的结构信息和面部的物理2肌肉模
型, 提取表情的特征区域, 它们是由表情变化比较显
著的特征部件的相关肌肉定义的: 眼睛、眉毛区域和
嘴部区域. 虽然最终提取的特征, 不是基于结构的几
何特征, 不必精确描绘其形状信息, 但各特征区域必
须分别在大小上归一化, 在特征部件的位置与比例
上
化. 对同一组图像序列, 特征区域的定位只在
第一帧计算得到, 其余帧都与第一帧相同, 为了防止
头部的刚体运动对测量表情运动的影响, 在标准化
时使用了旋转与平移操作; 对不同组图像序列, 对特
征区域中部件的位置与比例进行标准化: 在眼睛区
域中, 最具明显特征的是虹膜, 在边缘图像中, 虹膜
的边缘很强, 并呈圆状. 因此很容易检测得到. 从而
可得到眉毛特征, 根据眼睛及眉毛的比例可以重新
校正眼睛特征区域. 嘴部区域也是先从大致确定的
粗定位区域中, 根据灰度积分信息找到嘴部, 然后重
新校正嘴部特征区域: 如图 1.
5 面部运动的分析
关于被观察目标的运动向量即光流的估计, 主
要有三种方法[11 ]: 基于时空梯度的方法, 基于相关
的方法以及频率域的方法, 此外基于立体视的方法
也逐渐受到重视. 传统的Ho rn 与 Schunck 提出的
406 计 算 机 学 报 2000 年
基于梯度的方法, 比较适合于皮肤的变形计算, 而且
计算量比较简单, 只是逐点的估计位置的瞬时速度
场, 我们采用这种方法.
在基于梯度的方法中, 时空梯度之间的关系是
极其重要的, 这个关系被称之为基本等式, 它构成了
对光流计算的一个重要约束. 设在时间 t 和 t+ d t 时
有两幅连续的投影, 在图 t 上有灰度为 f (x , y ) 的像
素点, 这里 x , y 为该点的坐标, 该点在 t+ d t 上移至
f (x + dx , y + dy ) , f (x , y , t) = f (x + dx , y + dy ,
t+ d t). 当变化是连续的, 而且两帧间的时间间隔
d t→0, 由泰勒级数展开可得到: 5 f5x dxd t + 5 f5y dyd t + 5 f5 t
= 0, u= dxd t , v =
dy
d t. 特征部件的光流场如图 2. 用光
流特征作为特征向量, 对光照均匀程度的鲁棒性较
强, 只要光照在同一组序列中强度不变, 提取的特征
就是稳定的, 克服了图像处理比较敏感的问题.
6 基于 KL 变换的特征选择
对各个表情区域的运动向量, 我们要采用较少
数量的特征对样本进行描述以降低特征空间维数,
并去掉各特征分量间的相关性. 这种方法的基础是
Karhunen2L oève 展开式: x ( t ) = ∑∞
n= 1
rnx n
函数的参数以半连续的方式重估, 最普通的表达为
bj (O ) = ∑
M
m = 1
cjm # [O , Λjm , U jm ], 1Φ j ΦN . 这里O 是
被建模的向量; cjm 是在状态 j 的第m 个混合项的系
数; # 通常为高斯混合密度, 其均值向量为 Λjm ; 第m
个混合项在状态 j 的协方差矩阵U jm (半连续的情况
下, 各状态中的均值向量和协方差矩阵是相同的).
混合增益 cjm 满足随机限制: ∑
M
m = 1
cjm = 1, 1Φ j Φ N ,
cjm Ε 0, 1Φ m ΦM . 这样概率密度函数被标准化为
∫+ ∞- ∞bj (x ) dx = 1, 1Φ j ΦN .
在计算过程中为防止溢出, 需要一个比例因子.
对每一时刻 t, 取比例过程应用到A , Π和B . 并且在
计算的结束, 比例因子完全被抵消. 在计算 P (O û Κ)
时, 只能计算对数 P , 而不是 P , 否则会超出机器的
动态范围. 原始数据若较大也会造成溢出, 本实验把
原始光流数据缩小到原来的 1ö20.
由 HMM 所描绘的时间序列的过程是一个状
态转移模型, 因为表情图像序列与语音序列一样是
有时间顺序的、不可逆过程, 这里所采用的结构类型
是无跨越从左向右模型. 在此模型中限定起始状态,
每个状态只能向右侧编号高一位的状态或本状态转
移, 因此在这一模型的矩阵A 中只有主对角元素
A ii和右副对角元素A ii+ 1允许非零. 这一模型符合人
的语音和表情序列的特点, 而且A 比较稀疏, 大大
减少了模型参数估值的计算量.
为了得到可靠的模型估计必须有充足的数据,
多观察序列. 设有 k 组观察序列: O = [O (1) O (2) ⋯
O (k) ], 这里O (k) = [O (k)1 O (k )2 ⋯O (k)T k ]是第 k 个观察序
列, 各个序列间是互相独立的. 校正模型 Κ的参数,
使 P (O ûΚ) = ∏K
k= 1
P (O (k) û Κ) = ∏K
k= 1
P k 最大化. 这样修
改后的重估规则加入比例因子表示为下式.
aλij = ∑Kk= 1 1P k∑T k - 1t= 1 Αδkt ( i) a ijbj (O (k)t+ 1) Β1^ kt+ 1 ( j )
∑
K
k= 1
1
P k∑
T k - 1
t= 1
Αδkt ( i) Β1^ kt ( i) .
其中 a 为状态转移概率, Α, Β 分别是 Fo rw ard_
backw ard 过程中 fo rw ard 和 backw ard 变量. 同样,
bλj ( l)也可以计算得到.
8 实验结果
我们用七种最基本的表情做实验, 即中性、高
兴、惊奇、愤怒、悲伤、厌恶和恐惧. 实验中的某些表
情的部分序列如图 4. 对每种表情采了 20—30 组图
像序列, 共 196 组, 每组内的帧数不固定, 大约有 10
多帧, 大小为 256×256 像素, 采样频率为 7 帧ös. 用
人脸面部结构特征的先验信息和灰度积分特征, 确
定表情特征区域; 然后对每组序列的每帧图像进行
时间2空间上的平滑, 把特征区域中的特征部件按位
置与比例信息标准化, 并把区域分别归一化到固定
的大小, 得到眼部区域大小为 20×30, 嘴部区域为
30×40. 用基于梯度的光流方法提取特征部件区域
的运动场, 得到水平方向 u 和垂直方向 v 运动图像;
在对运动特征进行降维时, 把所有表情的所有帧的
图像作为训练基底, 分别对 u 和 v 方向以及分别对
各特征部件进行降维, 各部件的特征向量的长度的
确定是分别取 u 和 v 中较大维数作为长度的一半,
各部件的特征向量是 u 和 v 分量上分别投影后串行
连接起来的. 眼睛部件向量长度为 18×2= 36, 嘴部
特征向量的长度为 20×2= 40.
606 计 算 机 学 报 2000 年
人脸面部表情是由面部肌肉的运动而产生的,
因此对表情分析的核心是判断识别面部的某种运
动, 用静止的图像识别显然是损失了大量的关键信
息; 同时由于表情是情绪的外在表现, 它的速度、激
烈程度等会千差万别, 所以用时序分析的方法而不
是用固定的帧数来识别表情序列是重要而有意
义的.
在对HMM 进行训练时, 分为七种表情的眼部
和嘴部共 14 个HMM. 把各种表情的眼部与嘴部分
开训练, 是因为在实际生活中人的面部表情并不是
单一的某种表情, 随心情和情绪一样是混合复杂的.
表现在面部表情上, 不同的特征部件可能所包含的
表情信息是不同的. 对不同特征区域进行分析, 进而
分析混合表情的含义, 如图 5 是系统
图.
本文对混合表情的识别是分析不同特征区域中
表情的含义及表情的含量, 最后通过融合来理解、识
别的. 首先给出基于后验概率的表情含量的定义: 表
情的含量——在第m 个特征区域中第 i 种表情的含
量为
O m ( i) = P (8 iûA m ) , m = 1, 2, i = 1, ⋯, 7, 其中, P (8 iûA m )表示第 8 i 个模式类在第A m 个特征区域中的概率.P (8 iûA m ) = P (A m û8 i) P (8 i)∑7k= 1 P (A m û8 k ) P (8 k ) ,其中, 每种表情出现的先验概率 P (8 i) 为等可能的:
P (8 i) = 1ö7. 那么, 基于加性规则, 在所有N 个特征
7066 期 金 辉等: 人脸面部混合表情识别系统
区域中, 第 i 种表情的含量为O ( i) = 1N ∑
N
m = 1
O m ( i).
在目前所掌握的文献中没有出现过类似于本文
所设计实现的实验系统. 并且经实验证明, 系统在
时序分析过程中, 识别速度和识别结果都非常理想
的, 各种表情的总体识别率达到 96. 9%. 混合表情
识别系统的结果和判断更符合人的需求和心理, 更
切合和接近实际.
参 考 文 献
1 Zhao L i2Zhuang. H um an facical exp ression analysis and
recogn ition [M S dissertation ]. H arb in Institu te of T echno logy,
H arb in, 1997 (in Ch inese)
(赵力庄. 面部表情的分析与识别[硕士学位论文 ]. 哈尔滨工
业大学, 哈尔滨, 1997)
2 Gao W en, J in H ui. A nalysis and recogn ition of the facical
emo tional exp ressions. Ch inese Journal of Computers, 1997,
20 (9) : 782- 789 (in Ch inese)
(高 文, 金 辉. 面部表情的分析与识别. 计算机学报, 1997,
20 (9) : 782- 789)
3 M ase K. Recogn ition of facial exp ressions fo r op tical flow.
IE ICE T ransactions, Special Issue on Computer V ision and its
A pp lications, E, 1991, 74 (10) : 3474- 3483
4 L i H. Pertt i ro ivainen and robert fo rchheim er. 3_ D mo tion
estim ation in model based facial im age coding. IEEE
T ransactions on Pattern A nalysis and M ach ine In telligence,
1993, 15 (6) : 545- 555
5 Yacoob Y, D avis L. Computing spatio2tempo ral
rep resen tations of hum an faces. In P roceedings of the
Computer V ision and Pattern Recogn ition Conference, IEEE
Computer Society, 1994. 70- 75
6 Ro senb lum M , Yacoob Y, D avis L. H um an emo tion
recogn ition from mo tion using a radial basis function netwo rk
arch itectu re. In: P roceedings of the IEEE W o rk shop on
M o tion of N onrigid and A rticu lated O bjects, A ustin, TX,
1994. 43- 49
7 Peng A , H ayes M H. Iterative hum an facial exp ression
modeling. Schoo l of E lectrical and Computer Engineering
Geo rgia T ech, A tlan ta, GA : T echn ical Repo rt 3033220250,
1996, 479- 486
8 E ssa IA , Pen tland A P. Coding, analysis, in terp retation, and
recogn ition of facial exp ressions. M IT M edia L abo rato ry:
Percep tual Computing Section T echn ical Repo rt 325, 1995
9 W ang M ei, Iw ai Y, Yach ida M. Exp ression recogn ition from
tim e2sequen tial facial im ages by use of exp ression change
model. In: P roceedings of the 3rd In ternational Conference on
A utom atic Face and Gestu re Recogn ition, O SA KA , Japan,
1998. 324- 329
10 Sto rmonth K T. Zhang Yan2Yun translated. T he P sycho logy
of Emo tion. Shenyang: L iaon ing Peop le P ress, 1985 ( in
Ch inese)
(斯托曼 K T 著, 张燕云译. 情绪心理学. 沈阳: 辽宁人民出版
社, 1985)
11 Gao W en, Chen X i2L in. Computer V ision. Beijing: T singhua
U niversity P ress, 1999 (in Ch inese)
(高 文, 陈熙霖. 计算机视觉. 北京: 清华大学出版社, 1999)
12 B ian Zhao2Q i. Pattern Recogn ition. Beijing: T singhua
U niversity P ress, 1998 (in Ch inese)
(边肇祺. 模式识别. 北京: 清华大学出版社, 1998)
13 Rab iner L R. A tu to rial on h idden M arkov models and selected
app lications in speech recogn ition. P roceedings of the IEEE,
77 (2) : 263- 274
806 计 算 机 学 报 2000 年