第十四届全国图象图形学学术会议
基于 的半监督学习及其在人脸识别的应用
年慧宁 黄剑 陈羽 赖剑煌
中山大学数学与计算科学学院 , 广州 , 脚 刃
摘 要 本文提出了一种将 特征与 相结合的半监督学习算法 , 利用整体的样本结构信息 , 对原始的
进行正则化约束 , 从而提高分类算法的推广性能 。 在
库人脸上的实验结果
明 , 该算法能提高单独的
或 的识别效果 。
关扭词 流形学习 , 半监督学习 , ,
一 一
一 , , , 一
阴 月 已 一 矛钾
,
岁
一
·
叩
叨
一
概 述
在模式识别中 , 特征提取是常见而且重要的步
骤 , 通过将原始数据变换到合适的特征域而更有效
地进行识别 。 当原始数据的维数非常高且存在冗余
时 , 特征提取通常也是降维方法 , 根据变换的性
质 , 可以分为线性降维和非线性降维两类 。
线性降维算法由来已久且应用广泛 , 它们将高
维数据线性投影到一个低维的子空间 , 同时尽量让
投影后的低维数据分布对识别有利 。
非线性的降维算法 , 则是近年来才受关注和研
究较多的热点 , 且出现了专门研究子流形结构数据
的流形学习算法 。 流形学习是个广泛的概念 , 它假
设采样数据点分布为高维空间中的子流形 , 然后尝
试去寻找其内在的流形结构参数 , 亦即数据在低维
空间中的表示
。
从降维的角度看 , 流形学习算法是线性子空间
投影方法的推广 , 只是其投影变换是非线性 、 满足
流形性质的 。 目前已出现许多有代表性的流形学习
算法 , 如 , 即 , , ,
, , 等
。 然而 , 虽然这些算法的目
标都非常好 , 在人工构造的数据集上效果都很明
显 , 但在实际识别问题中却很难应用 。 例如 , 将原
始的 叩 算法直接用来降维做识别 , 效果并不
理想 。 其原因 , 有可能是因为理想的流形假设与真
实的数据分布之间有偏差 。
尽管如此 , 流形学习的概念和思想 , 仍是被广
泛接受和发展的 , 而最近几年对流形学习的研究大
都是用其思想而并非寻找理想的流形参数 。 从这样
的观点出发 , 就出现了各种学习算法中的流形嵌入
结构约束 , 以及线性化的流形学习算法 。 它们的目
越金项目 国家自然科学资金 , , 计划 一以 , 教育部科技攻关重点项 目 一。引 , 广东省自然
科学基金 资助 。
第一作者简介 邱慧宁 一 , 男 , 中山大学数学与计算科学学院博士 。
邱慧宁等 基于 的半监督学习及其在人脸识别的应用
标都是希望能有效地把流形的结构信息表示或近似
出来 , 并融入到现有的识别算法中。 在线性化的流
形学习算法中 , , 是一个效果和性能都比较
好的算法 , 它能通过线性投影近似地保持流形的性
质 , 具有许多扩展和应用 。 也一种具有
流形学习特性的线性投影算法 , 尽管因不同的思路
而提出 , 但进一步的研究表明 , 它与 之间关
系紧密 , 这两种算法都被用于人脸识别 。
在人脸识别中 , 一个普遍接受的假设是二维的
人脸图像数据分布在一个人脸子流形上 , 通常的线
性物体类 、 光照子空间等提法 , 都纳在这个假设
下 。 如何寻找或近似地表示这个子空间 , 最有利于
分类识别 , 形成了人脸识别研究中的一条主线 。 经
典的 、 、 等 及其扩展算法在寻找
某种统计意义下最优的线性投影 , 而较新的 、
等则寻找某种几何结构最优的线性投影 , 它们
的共同点是都有显式的降维表示 投影矩阵 , 而
且这个表示是完全在训练集上得到的。
最近关于半监督学习的研究表明 , 在一些假设
下 , 针对分类 识别的目的而言 , 将训练数据与测
试数据一起考虑其整体结构 , 可以带来更多的数据
分布信息 , 恰当的使用它们可以提高识别效果 。 流
形正则化是半监督学习中的一类算法 , 其基本思想
是假设类标信息在数据分布的流形上具有连续性 ,
从而同类的点在几何上应该相邻 , 亦即几何结构应
该对最后的分类产生某种限制 , 具体实现时通常是
在学习算法中加入几何约束的项 。
本文算法所基于的 特征 , 是对样本数据
点施加的一个几何距离约束 , 在算法中被作为一种
流形正则化项使用 同时它不使用类标信息 , 可对
所有数据样本同时使用 , 把它和现有的有监督学习
算法相结合 , 即可发展出一种新的半监督学习算
法 。 下面即是由此提出的将 和 相结合的
半监督学习算法 。
权的图来描述数据流形 , 然后通过图的嵌入来找低
维表示 , 且尽可能地保持图的局部邻接关系 。
是一个线性投影去近似这个映射 , 算法要述为
假设高维空间 中的样本集 导 ,
·
,
耐
, 要
寻找一个投影 , , 以及
样本的低维表示 一 、一贱
,‘一 ,外 使得
在低维空间中数据点集仍能尽可能地保持原来的局
部几何结构 , 即满足 的几何约束
, 一 , , 。
其中
矩阵 ,
乞,
即由原样本点集确定的邻接图权
及 二 如果
‘与 相邻
其它
一·卜州尸
‘
为生一一义︸, ,定扒日厂
代入化简可得到 的最优化目标准则为
,
其中 一
只‘ 二 声。
, 凡 , ⋯ ,
二
乞夕只小
, 二 一 。 它的解是以下特征
问题的最小非零特征值所对应的特征向量
入尤刀
由 等提出的 , 也是一种线性
化的流形学习算法 。 的基本思想是考虑样本
点在低维表示后的局部散度和非局部散度 , 并让局
部散度尽可能小 , 同时让非局部散度尽可能大 , 综
合即使非局部散度与局部散度的比值尽可能大 。 沿
用上一小节中的记号 , , 可定义原空间样本集的
全局散度矩阵
乓 卫
‘
万 。‘
、 、
一 、一
相关工作
和局部散度矩阵
由 等提出的 ,
,
, 是一种线性
化的流形学习算法 , 它是
直接的线性近似 。 的基本思想是用一个无向带
凡 一 痴 皿 一 一名
二 上
第十四届全国图象图形学学术会议
其中 一 与 中的含义完全相同。 进
而可定义非局部的散度矩阵为
二扁 , 、 , 、 , ,
今 一 赫耳耳‘一 凡
‘一 ‘ 一
凡
凡
二 乓 一 凡
的最优化目标准则是
今
, 凡
它的解是以下特征问题的最大特征值所对应的特征
向量
凡 入
继续注意到 , 准则 与 很相似 , 但存在一个重
要的区别 , 的准则计算是需要类标信息的 ,
而 用 的准则计算是不需要类标信息的 。 简
言之 , 这是有监督学习和无监督学习的区别 。
它的解是以下特征问题的最大特征值所对应的特征
向量
今 入凡
容易发现 , 式 与 的解非常相似 , 事实上 , 正
如 所指出的 , 在假设每个样本点的局部密度
都相等时 , 与 的准则是等价的 , 但一般
情况下这个假设并不成立 , 因此 并不只是
的另一表述 , 而且它的局部与全局两部分的含
义更为明显 。
以
也是一种线性投影子空间方法 , 但与
、 不相同的是 , 是有监督的学习算
法 , 即它需要用到样本的类标信息 。
保持前面的记号一致 , 对样本集 , 设 为样
本的类数 , 人, 气, ⋯ , 为每个类的开始下标
,
从 , 凡 , ⋯ , 凡 为每个类的样本数
。 记总体样本
基于 特征的半监督学习算法
均值为户 二 生丫、
‘
自落
基本思想
如前所述 , 与 的优化准则相似但有
区别 用 又 刻画样本集的局部“几何 ”结构信
息 , 则用 刻画样本集的每个类的 统计
分布信息 的计算不需类标信息 , 可以对所有
的样本进行 , 则需要类标来区分数据 。 将半监
督学习的思想引入 , 假设样本集具有“连续性 ”的结
构 , 即相邻的点具有相同的类标 , 那么 的“局
部”与 的“类内”是有对应的 , 从而应用混合有
类标和无类标数据的 局部散度矩阵去正则化
是有意义的 。 具体地说 , 我们要寻找让类内
散度和局部散度都尽可能小 、 类间散度和非局部散
度都尽可能大的投影方向 , 从而有如下的 最
优化准则
每个类的样本均值为
拼
矩阵为
、 。
乙 , 二
。
⋯
, 类间散度
, 凡 今
凡
艺一戈
凡 一 艺从 川 一 川倒 一 川
类内散度矩阵为
从
一 艺 , 一 。“ , , 一 。“ ,
则 的最优化 目标准则为
其中 , 口 是控制正则化强度的参数
。 易知 , 优化
问题 的解是以下特征问题的最大特征值所对应的
特征向量
凡 , 入 口
而将其用于分类的具体步骤如后所述 。
算法表述
设有当前样本集 分为两部分 , 一为有标签
的数据集 一 。, , , 共有 类 , 第
类所含的样本数为 八 且满足 艺晨人
,
余下的无标签数据集记为
邱慧宁等 基于 的半监督学习及其在人脸识别的应用
一 , 启 ,
。 基于 ”特征衅监督
学习对 寿 进行分类的算法描述如下
设置参数 , , 口。
建立邻接图及权矩阵 根据公式 构造出整个样
本集 二 凡 凡 的
一邻域的邻接图矩阵
, 并计算图 矩阵 二 一 。
计算局部散度 凡 二 , 和全局散度矩阵
肠
, 进而得到 寿 二 寿 一 凡
。
对有标签的数据集 瓜
, 计算类内散度矩阵
和类间散度矩阵 。
求解特征问题
凡 今 久凡 口凡
取其前 个最大的特征值所对应的特征向量 , 记
为 一【
, , ⋯ , , 为降维的特征维
数 。 最后用 对凡 , 凡进行特征投影识别
。
脸图像质量较好的条件下 , 所提出的 算法的
识别效果与其它三种算法的性能无显著差别 , 但在
训练样本数较小时稍占优势 。
表 在 人脸库上四种算法的识别率比较
即
一
一
】
实验结果
针对人脸识别的应用 , 以及本文所提出算法的
目标 , 我们比较了四种算法在人脸识别中的效果
, ,
, 本文方法 。 实验配
置 、 结果和分析如下 。
, 数设
在测试的四种算法中 , 都需要先进行 降
维的步骤 , 为了统一比较 , 我们让所有的 降
维都保持 的能量 。 在特征提取阶段 , 我们
简单地把所有的算法的维数都取为 能取
到的最大维数 一 。 对 、 、 , 建
立邻接图的 一 邻域参数都取为 , 热核的
扩散参数取为 二 。 对 , 正则化强度系
数取为 二 口二 。 识别采用最近邻分类器
。
在小规模库上的结果 ,
人脸库包含 个人 , 每人 张的人
脸 , 其变化条件 尤其是光照和姿势 较少 , 是一
个简单的库 。 我们在原始尺寸 的图像
上直接测试 , 训练样本数分别取为 , , ⋯ , , 相
应的余下作为测试样本 , 共 轮每轮随机循环 次
取平均 。 测试的结果如表 所示 。 可以看到 , 在人
人脸库包含 个人 , 每人 张的人脸 ,
主要包含了光照的变化 , 也是相对简单的库 。 对每
张原始图像 , 我们根据两眼的位置 , 手动裁剪出
的图像作为新的样本集合 。 测试的训练
样本数同样取遍 , , ⋯ , , 相应的余下作为测
试样本 , 共 轮每轮随机循环 次取平均 。 测试结
果的 曲线如图 所示 。 可以看到 , 对此 人
脸库的光照变化条件下 , 算法的识别效果比
其它三种算法要高 。
在典型库上的结果
扩展的 人脸库包含有 个人 , 每人
种姿势 、 种光照的人脸图像 , 我们只使用裁剪
后的库 , 对每个人随机地取 , , 张图像做训练
样本 , 其余的做测试样本 , 结果如表 所示 。 可以
看出 , 算法相比其余三种算法在识别率上有
一定提高 。
图 在 人脸库上四种算法的 曲线
表 在 人脸库上四种算法的识别率比较
乃
第十四届全国图象图形学学术会议
结 论
本文由半监督学习的思想出发 , 引入 的
几何特征对经典的 进行正则化 , 实验证明此
方法对提高识别率有帮助 。
参考 文献
改 氏 , ” ,
·
」 ‘ 助 肠 , ”
·
, , ,
, , ,
卜 ,
】 助 , “ 传鸽四 , , , , ,
助 , 田
,
既
,
, 物 , 丫 认 只 ” , 二 , ’‘ 就
鱿 , , , 朋 ,
即日 , , , · ,
】 , , , 。而一 堆
, ,
劝 , 目 向
, , 一
【 丫明 , , , , 丫 丫妞 , ” 刻
妞 , , ,
, , , 一
丫切 , 加 , 二 , , ” ,
而 而万
几“ 即 , , , 鱿 ,
口 , , , 一 ,
」 物 , , 产丫 丫切 , , 切 ”
而云 , 幻
, , , 冶 目
, 份 , , ,
杨剑 , 王压 , 钟宁 流形上的 加 半监督回归 计算机研究与
发展 , 年 期