© 1994-2010 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net
第 40 卷 第 1 期 吉 林 大 学 学 报 ( 工 学 版 ) Vol. 40 No. 1
2010 年 1 月 Journal of Jilin University ( Engineering and Technology Edition) Jan. 2010
收稿日期 :2008207215.
基金项目 : 国家自然科学基金项目 ( 60433020 , 60673099 , 60773095) ;“863”国家高技术研究发展
项目
(2007AA04Z114) ;吉林大学“985 工程”项目 ;欧盟项目 ( T H/ Asia Link/ 010c111084) .
作者简介 :刘小华 (19712) ,女 ,副教授. 研究方向 :图像处理 ,模式识别 ,计算智能.
E2mail :xiaohua @jlu. edu. cn
通信作者 :周春光 (19472) ,男 ,教授 ,博士生导师. 研究方向 :计算智能 ,模式识别 ,进化计算 ,生物信息学. E2mail :cg2
zhou @jlu. edu. cn
海量人脸数据库的快速检索
刘小华 ,周春光 ,张利彪 ,盛会鹏 ,李江春
(吉林大学 计算机科学与技术学院 ,长春 130012)
摘 要 :针对海量人脸数据库检索时间长的问题 ,提出了基于 L2K 均值层次聚类算法。此算
法把大型人脸数据库划分成一些子类数据集 ,对处于类边界的数据 ,采用冗余技术和预设阈值
再重新分配到一些类中 ,从而使检索过程只在一个或几个子类中进行。实验结果
明 ,该算法
能极大地缩小海量人脸库的检索范围 ,在保证一定准确率的前提下 ,有效地提高了检索速度。
关键词 :计算机应用 ;人脸识别 ;聚类 ;快速检索
中图分类号 : TP391 文献标志码 :A 文章编号 :167125497 (2010) 0120183206
Method of quick searching in a huge scale face database
L IU Xiao2hua , ZHOU Chun2guang , ZHAN G Li2biao , SH EN G Hui2peng , L I J iang2chun
( Col lege of Com puter Science and Technolog y , J i l i n Universit y , Changchun 130012 , China)
Abstract :An L2K means hierarchy clustering algorit hm is p roposed to overcome t he long time
searching in a huge scale face database. By clustering met hod t he whole database is divided into a
number of sub2dataset s. Data redundant technique and predefined t hreshold are applied to reassign
clustering edge element s of into certain sub2dataset s. Then the searching is only carried out in one or
few sub2dataset s , which greatly reduces t he searching time. Experiment result s show that t he
p roposed method can significantly reduce the searching range , thus effectively increasing t he searching
speed while ensuring similar ret rieval accuracy as to search t he whole database.
Key words :comp uter application ; face recognition ; clustering ; fast searching
随着待检索对象数量不断增加 ,数据库的规
模不断增大 ,形成了海量的人脸数据库。如何提
高海量数据库的检索速度 ,是大型人脸数据库检
索向实用化发展必须解决的问题。近年来 ,由于
网络的普及和技术的进步 ,个人图像的数量剧增 ,
促使人们不断地改进图像管理方法 ,以便于浏览
和检索[122 ] ,其主要思想是建立图像库的层次索引 结构。提高海量人脸数据库检索速度的关键在于分类 ,即建立合适的层次特征索引结构 ,将整个数据库分成多个类 ,检索时只在一个或少数几个类内进行检索 ,从而达到加快检索速度的目的。为此 ,作者基于 L2K均值的聚类算法进行了研究。
© 1994-2010 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net
吉 林 大 学 学 报 ( 工 学 版 ) 第 40 卷
1 海量人脸数据库聚类算法
1. 1 基于 L2K均值的聚类算法
经典的 K2均值聚类算法 ,采用欧氏距离作为
距离度量。欧氏距离是明考斯基距离的特例 ,
Aggarwal 等[3 ]考察了高维空间中明考斯基距离
后指出 :在高维空间中的数据采用 (明考斯基距
离) 时 ,当 n 越小 ,对数据的区分能力越强 ,也就是
这个距离度量越有效。因此 , Aggarwal 等对明考
斯基距离进行了扩展 ,使 n 可以取小数值 ,在聚类
上取得了很好的效果。另外 , Arkadiusz Wojna
在文献[4 ]中对各种值类型的特征向量的基于中
心的索引结构进行了
,指出 :基于中心的向量
的索引结构用于加速检索的基础是距离函数满足
三角不等式 ,而 n < 1 时的 L n 不满足三角不等式。
白天等[5 ]提出了一种能够自适应确定聚类树木的
全局 K2均值算法 ,解决了共调控基因聚类算法中
的 4 种共调控关系问题。郑明等[6 ]采用一种改进
的并行免疫遗传算法 ,降低了寻优算法中局部收
敛的可能性 ,提高了获得全局最优解的比率。为
了获得较好的区分性能 ,并同时建立有效的索引
结构 ,在 K2均值聚类中采用了 L 1 ,即街区距离。
1 . 2 基本算法
1 . 2 . 1 一步分类算法
给定数据集 { x1 , x2 , ⋯, x m } 和分类数 k , 一
步分类方法的步骤如下[4 ] :
(1) 从{ x1 , x2 , ⋯, x m } 选择 k 个中心。首先计
算{ x1 , x2 , ⋯, x m } 的质心 , 然后选择离质心最远
的数据点作为第一个中心 x’1 。
(2) 对 i = 2 ,3 , ⋯, k ,选择离 x’1 , x’2 , ⋯, x’i- 1
都“较远”的数据点作为第 i 个中心。这里的较远
可以用一些启发函数来进行评价 ,比如 ,可以考虑
被选择的中心点与已有的中心点距离之和或者最
小距离等。
(3) 将数据集{ x1 , x2 , ⋯, x m } 中的数据分配
到中心点与其距离最近的子类内。
一步分类算法的复杂度为 O( k2 m) ,由于一般
情况下 k ν m , 所以算法的复杂度与数据集的规
模成线性关系 ,虽然也需要磁盘 I/ O , 但次数有
限 ,故适合数据集规模非常大的情况。
该算法可以看成是 K2均值聚类算法的简化 ,
也就是对 K2均值聚类算法的初始聚类中心进行
仔细选择 ,然后取消其迭代优化过程。因此 ,也可
以选择进行若干次迭代 ,使一步分类的结果得到
进一步改善 ,但不必使各个中心达到稳定再停止 ,
从而在聚类结果和时间复杂度上取得一个折中。
1. 2. 2 L2K均值层次聚类算法
如果初始的数据集较大 ,L2K 均值层次聚类
算法的操作对象是一步分类算法的结果 ,也就是
说 ,下面的步骤 (1)中的整个结果集是一步分类后
的各个子类 ;否则 ,直接用 L2K 均值层次聚类算
法在初始数据集上进行操作即可。
给定表 1 中的参数 ,L2K 均值层次聚类算法
如下 :
(1)将整个数据集作为根类 ,放入队列 Q。
(2)如果 Q 非空 ,取出一个元素 Node 作为当
前节点 ,否则算法结束。
表 1 聚类算法参数
Table 1 Classif ied algorithm parameters
参数名 参数描述
MAX_CHILD 每个节点的最多子类数目
MAX_PER_CL USTER 每个类内的最大数据量
MIN_PER_CL USTER 每个类内的最小数据量
MAX_ITERA TION 每次聚类的最大迭代次数
MAX_NUM_CL USTER 每个数据集的最大聚类次数
(3) 如果 Node 内的数据量大于 MA X_ PER_
CL U STER ,转 (4) ;否则转 (2) 。
(4) 根据 Node 内的数据量计算待分类数 k (2
≤k ≤MA X_CH ILD) 。
(5) 从 Node 数据中选择 k 个不同数据作为
初始聚类中心。
(6) 使用基于街区距离的 K2均值聚类算法对
Node 内的数据进行分类 ,并限制最多迭代次数为
MA X_ITERA TION。
(7) 对步骤 (6) 中得到的结果 ,如果某些子类
内的数据量小于 MIN_ PER_CL U STER ,则舍弃
这些子类 ,并相应减少 k 的值 ;否则转 (9) 。
(8) 如果 k 的值小于 2 ,则转 (9) 。如果步骤
(6 ) 、( 7 ) 的 执 行 次 数 小 于 MA X _ NUM _
CL U STER ,把剩下的 k 个子类的中心作为初始
聚类中心 ,转 (6) ;否则 ,将剩下的 k 个子类外的数
据分配到与其街区距离最近的子类中。
(9) 如果 k 的值大于 2 ,将得到的 k 个子类放
入队列 Q ;转 (2) 。
(10) 使用数据冗余算法进行数据冗余。
聚类后 ,如果某些子类内的数据可能很少 ,就
取消这些子类 ,使用其他子类的聚类中心作为初
始中心重新聚类。当子类数减少到 1 时 ,说明这
·481·
© 1994-2010 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net
第 1 期 刘小华 ,等 :海量人脸数据库的快速检索
个数据集中的数据相对来说比较紧凑 ,不再对其
进行分割 ;如果该数据集中的数据量过大时 ,可以
采用一步分类方法将其分成几个子类。
1 . 2 . 3 数据冗余算法及改进
由于检索只在少数几个类内进行 ,所以当被
检索的数据处于分类边界时 ,其检索结果和在整
个数据集中的检索结果相比 ,可能有一定的误差 ,
采用如下的数据冗余方法来提高准确率。
设参数 N 表示搜索近邻数 ;参数 R 表示近邻
搜索范围 ;参数 T 表示近邻阈值。则数据冗余算
法如下 : 对分类得到的层次树中每个叶类
leafNode ,计算其搜索范围 R。对 leafNode 内的
每个数据 curData ,在范围 R 内找到其前 N 个近
邻 , 将这 N 个近邻中不在 leafNode 中且与
curData 距离小于阈值 T 的近邻 , 加入到子类
leafNode 中。
易知 ,当搜索范围 R 是整个数据集时 ,这是
一个穷举搜索过程 ,其时间复杂度是 O ( N 2 ) , N
是数据集的规模 ,空间复杂度为 O ( N) ,也就是要
求所有数据都载入内存。显然 ,这个复杂度太高 ,
使数据集的规模不具有较好的伸缩性。
由于每一步的分类过程已经尽量把相似的数
据分到了相同的类内 ,因此在分类后的层次树中 ,
一个叶类内的某个数据近邻如果不在该类内 ,则
很有可能在其父节点的其他儿子节点中 ;或者说 ,
可能在其某个祖先节点的所有子孙节点的叶节点
中。这种搜索方式涵盖了全局搜索 ,即这个祖先
节点为根节点时的搜索过程。
各个参数对算法的影响如下 :
(1) 对分类步骤而言 ,如果每个叶类内的最大
数据量较小 ,则必须进行多次分类 ,造成很多近邻
被分割 ,冗余数据增多 ;如果每个叶类内的最大数
据量较大 ,则冗余数据减少 ,检索时间增加。
(2) 对数据冗余步骤而言 ,如果 R、N 的值较
小 ,则检索的准确率会下降 ,而算法的时间复杂度
和空间复杂度也会下降 ,同样 ,数据冗余率也会下
降 ;如果 R、N 的值较大 ,则检索的准确率、算法的
时间复杂度、空间复杂度、数据冗余率都会上升。
参数 T 要根据实际的应用来确定 , T 较大时 ,检
索的准确率高 ,而数据冗余率也会上升 ; T 较小
时 ,检索的准确率下降 ,而数据冗余率也会下降。
总之 ,数据集的分布、聚类算法的有效性、算
法的复杂度、数据冗余率、检索的准确率等这些因
素是相互影响的 ,一个因素的欠缺 ,需要其他因素
的补偿 ,这也是算法具有灵活性和复杂性的原因。
1 . 3 算法的优缺点
算法优点如下 :
(1) 层次树的多层索引结构 ,可以针对待分类
数据集的实际情况使用合适的分类方法 ,在分类
准确率和效率上做出一个折中。
(2) 层次树的多层结构 ,为采用分支限界等检
索策略提供了空间。
(3) 多层分类 ,每次分类的子类数目都较单层
分类少 ,对于迭代聚类算法 ,更容易收敛。
(4) 分类数目与类内的数据量直接相关 ,对每
个叶类内的最大最小数据量进行限制 ,使检索时
间趋于稳定。
(5) 参数设置为准确率、时空复杂度、数据冗
余率之间提供了一个折中选择。
算法的不足如下 :
(1) 限制了每个叶类内的最大数据量 ,使得数
据密集的一个稍大的数据子集可能被分开 ,造成
数据冗余 ;另外 ,由于限制了待分类数据集的最大
分类数 ,使得分类可能不符合数据集中数据的分
布情况 ,进一步加大了数据冗余。
(2) 数据冗余的复杂度高。数据冗余算法的
复杂度仍然为 O ( N ) ,而改进的效果与多种因素
有关 ,主要是数据集分布情况和分类结果的好坏。
(3) 参数多。从前面给出的算法可以看出 :参
数多为算法带来了灵活性 ,但参数值的确定是非
常困难的 ,而且其中的许多参数都是相互影响的。
文献[7 ]也指出 ,聚类的困难就在于聚类算法要适
应各种应用情况 ,因此 ,聚类应用都是根据应用领
域的经验、实验来确定参数的。
2 系统实现及实验结果
检索准确率定义为 :对 n 个测试数据中的
x i ,从一个叶节点检索出其 N 个近邻 ,其中 y i 个
包含在全局检索出的 N 个近邻中 ,则检索准确率
为
( ∑
n
i = 1
y i ) / ( n 3 N)
数据冗余率为数据冗余操作后得到的数据量
与原始数据量之差与原始数据量的比值。
2 . 1 系统结构
系统主要用于人脸的快速检索 ,但也实现了
新人脸图像的入库功能。
(1)人脸图像入库
·581·
© 1994-2010 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net
吉 林 大 学 学 报 ( 工 学 版 ) 第 40 卷
对即将录入的人脸图像 ,首先进行人脸检测
和特征提取 ,得到表征人脸信息的 120 维 PCA 特
征向量 ,将其写入数据库中 ,并分类到与其最近的
叶类 ,便于以后的检索。
(2)层次索引结构的建立
索引结构的建立分两步进行 ,首先从数据库
中提取数据集 ,使用 L2K均值层次聚类算法进行
聚类 ,并将聚类结果写入数据库 ;然后根据结果 ,
进行数据冗余操作。
(3)人脸的快速检索
首先对给定的人脸进行 120 维的 PCA 特征
提取 ,根据该特征向量找到层次树结构中与其距
离最近的若干个叶节点类 ;然后将这些叶节点类
的数据读入内存 ;最后从读入内存的数据集中搜
索给定人脸图像的前若干个近邻并显示。
检索过程的两点说明 :
(1)由于库中已经有很多图像 ,考虑到索引结
构建立的复杂度 ,当有新的图像入库后 ,并没有立
即进行索引结构的重建 ,而只是将新入库的数据
根据已建立的索引结构分配到与其距离最近的叶
类中。这可能会造成一定的检索误差 ,当新加入
的数据大于一定的比例时 ,手工重建索引结构。
(2)检索时没有限定只从数据库中读取与待
检索数据距离最近的叶类中的数据 ,而是可以读
取与其最近的前若干个叶类中的数据。这样当检
索结果的准确率不理想时 ,可以选择通过读入更
多的数据来改善检索的结果 ,也即允许在检索时
间和检索的准确率上做出权衡。
2 . 2 实验环境
CPU 为 Pent uim4 ( R) 3. 0 GHz ;内存为 512
M ;操作系统为 Windows XP SP1 ;数据库系统为
Oracle9i Enterp rise Edition 9. 2. 0. 1. 0。
数据库中有 109 741 个人的信息 ,包括其姓
名、性别、年龄、身高、人脸、人脸 PCA 特征等字
段 ,其中最重要的是人脸和相应的特征信息。每
个人脸的特征数据都是 120 维的一个实向量。
2 . 3 一步分类方法的实验结果
可以把一步分类算法看成简化的 K2均值算
法 ,虽然文献[ 4 ]中给出的算法对子类中心进行了
仔细的选择 ,但在本文的数据集上 ,结果并不是很
理想。随机选择两个子类中心 ,把数据分到这两
个类中 ,每个类内的数据分布情况如图 1 所示。
可以看出 ,在没有进行迭代优化的情况下 ,
100 次的分类中有多次测试 ,两个类内的数据量
图 1 一步分类结果
Fig. 1 One2step split result
没有数量级上的差别 ,而且某些情况下 ,两个类内
的数据量还十分接近。因此 ,当数据量较大时 ,可
使用这个方法。
2. 4 L2K均值层次聚类算法中部分参数的确定
MAX_ CHILD 是每个待分类数据集的最大
分类数。文献[8 ]中采用了自上而下的层次聚类
方法 ,将每个待分类的数据集分成两个子类 ,但其
得到的二叉树层数太多 ,造成了严重的内存浪费 ,
所以文献[ 8 ]中最后将这棵二叉树转换成了 4 叉
树。本文中由于限制了每个叶类内的最小数据量
和最大数据量 ,并且与原始数据集的大小相差 1
~3 个数量级 ,不会造成树的层数太多 ,因此 ,给
MA X_CH ILD 赋值 10 ,并根据待分类的数据集
规模的大小对待分类数进行修改 ,具有一定的弹
性。实验结果表明 ,这样处理对检索的影响很小。
MIN_PER_CL U STER 用于舍弃数据量非常
小的类。根据数据集的情况 ,设为 200。
MAX _ ITERA TION 和 MAX _ NUM _
CL U STER 主要用于控制分类的复杂度。实验表
明 ,由于限制了最大分类数 ,聚类算法很容易收
敛 ,很多都在 200 次迭代以内收敛。MAX _
ITERA TION 赋 值 为 1000 , MA X _ NUM _
CL U STER 赋值为 10 (注意最大分类数为 10) ,所
以相当于对聚类的收敛性没加限制 ,让其尽量收
敛到较好的结果。
参数 T 的确定。如果一个人在库中只有极少
的人脸 ,并且没有其他的人脸与其很相似 ,这样检
索出来的结果才具有意义。为了避免无意义的相
似图像带来的数据冗余 ,使用阈值 T 进行限制 , T
的值根据实际应用确定 ,本算法中 , T = 5000。
参数 N 的确定。在测试数据集中 ,每个人的
照片都不多 ,因此与其非常相似的也不是很多 ,把
N 赋值为 6 ,检测出与待检索人脸最相似的前 10
张人脸。也就是说 ,通过数据冗余算法来严格保
·681·
© 1994-2010 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net
第 1 期 刘小华 ,等 :海量人脸数据库的快速检索
证前 6 张图像满足阈值 T 限制的准确率 ,通过聚
类算法来近似保证后面 4 张的准确率。当然 , N
也要根据实际应用的场合来确定。
参数 MA X_PER_CL U STER 和 R 二者值的
大小会影响到检索结果。根据这两个参数的变化
与检索结果的关系 ,来验证本文算法的有效性。
2 . 5 分类及检索结果
MA X_ PER _ CL U STER = 1200 时 ,对包含
109 741 张人脸的数据库聚类 ,得到叶节点的初
始数据量及冗余后的数据量如图 2 所示 ,可以看
出 ,各个叶类内的数据量都不是过大或者过小。
统计 2000 次 MAX_ PER_CL U STER = 1200
时检索最相似的前 10 张图像的时间如图 3 所示。
图 4 是一次典型检索的结果。
图 4 中 ,第一列的人脸是被检索的人脸 ,第一
行的人脸是从全局数据集中检索出的结果 ,第二
行人脸是从一个叶节点中检索出的结果 ,每张人
脸下面的数据都是库中相应人脸与被检索人脸之
间的距离。可以看出 ,前 4 张都是对应的 ,后面的
出现了误差 ,但出现误差的人脸与被检索人脸之
间的距离已经大于阈值 T (5000) 。
图 2 初始及冗余后数据量比较
Fig. 2 Comparison between initial and redundant data
图 3 检索时间统计
Fig. 3 Retrieval time charts
图 4 典型检索结果
Fig. 4 Typical search results
分别对 MA X _ PER _ CL U STER 的值为
1200、2000、3500、5000 的情况进行实验 ,得到了
图 5 中的结果。由图 5 可知 :
(1)随着类内最大数据量的增加 ,检索的准确
率增加 ,依次为 0. 77、0. 80、0. 83、0. 86。这说明 :
类内的数据量大 ,数据被分割的次数减少 ,从而检
索准确率增加。
(2)检索时间与类内数据量基本成正比 ,依次
为 0. 66、1. 05、1. 72、2. 47 s。检索时间不包括从
数据库中读入 N 个近邻并显示的时间 ,因为这个
时间是相对固定的 ,它的大小与实验环境密切相
关。
(3)随着类内数据量的增加 ,近邻被分割的可
图 5 各种性能与类内数据量关系
Fig. 5 Relationship of various performances and
data sets amount
能性减小 ,从而数据冗余率减小 ,依次为 1. 49、
1. 31、1. 10、0. 95。
·781·
© 1994-2010 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net
吉 林 大 学 学 报 ( 工 学 版 ) 第 40 卷
在一个叶节点内进行检索 ,检索的准确率不
是很好。统计在多个叶节点内的检索准确率 ,以
MAX_PER_CL U STER = 1200 为例 ,得到如图 6
所示的检索结果。显然 ,在大的数据集内检索准
确率较高 ,当检索的节点数从 1 增加到 5 时 ,准确
率依次为 0. 77、0. 86、0. 91、0. 93、0. 95 ;检索时间
也相应增加 ,这也印证了检索时间与检索数据量
的正比关系。
图 6 检索时间及准确率与检索节点数的关系
Fig. 6 Relationship of retrieving time , accuracy
and nodes’ number
前面的结果都是当数据冗余步骤中 R 为全
局范围时得到的。如不在全局范围内搜索近邻 ,
而是将 R 限定在被操作叶节点的祖先节点中离
根节点最近的节点时 ,以 MA X_ PER_CL U STER
= 2000 为例说明如下 :
(1)测试得到的准确率为 0. 62 ,与 R 为全局
范围的 0. 80 有较大的误差。通过观察一些数据
的近邻发现 ,数据库中每个数据的近邻不是很多 ,
这样 ,缩小 R 的范围对检索的准确率影响较大。
(2)数据冗余率只有 0. 73 ,与 R 为全局范围的
1. 31 要小很多 ,可预计其检索时间也相应减少。
(3)算法分为层次聚类和数据冗余。实验发
现 ,聚类所用的时间均小于 1 h ,当 R 为全局范围
时 ,数据冗余的时间为 11 h 左右 ,而当 R 的范围
被限定在被操作叶节点的祖先节点中离根节点最
近的节点时 ,数据冗余所用的时间为 1. 5 h 左右。
需要说明的是 :当被检索的人脸不在库中、且
有比较相似的人脸时 ,则有与上面比较相似的结
果 ;如果没有与之相似的人脸 ,则结果不确定 ,这
对检索效果没什么影响 ,因为即使检索出精确的
结果也没有意义。
3 结束语
针对海量人脸数据库快速检索 ,提出了一个
L2K均值层次聚类算法 ,在加快检索速度的同时 ,
考虑了准确率等多方面的因素。实验结果证明该
算法能够实现海量人脸库的快速检索。通过调整
参数 ,用户可以根据实际情况 ,在索引结构建立的
复杂度、数据冗余率、检索时间、检索准确率等不
同性能之间做出折中权衡 ,体现了该算法的灵活
性。但是 ,人脸识别技术受光照、遮挡、年龄等因
素的影响 ,其识别结果很难达到 100 % ,这也是海
量人脸数据库检索的正确率不是很高的直接原
因。本文的工作能极大地缩小人脸人工检索范
围 ,较大程度地降低人工比对照片的时间。
参考文献 :
[ 1 ] Liu Cheng2jun. Gabor2based kernel PCA with fractional
power polynominal models for face recognition [ J ].
IEEE Transactions on Pattern Analysis and Machine In2
telligence ,2004 , 26 (5) : 5722581.
[ 2 ] Xin Zheng. Locality preserving clustering for image data2
base[C] ∥ACM Conference on Multimedia ,2004 :10216.
[ 3 ] Aggarwal C C , Hinneburg A , Keim D A. On the sur2
prising behavior of distance metrics in high dimensional
space[J ]. Lecture Notes in Computer Science , 2001 :
4202434.
[ 4 ] Wojna A. Center2based indexing in vector and metric
spaces [J ]. Fundamenta Informaticae , 2003 , 56 ( 3) :
2852310.
[ 5 ] 白天 ,周春光 ,刘桂霞 ,等. 一种共调控基因聚类的新
方法[J ]. 吉林大学学报 :理学版 , 2009 ,47 (2) :2922
298.
Bai Tian ,Zhou Chun2guang ,Liu Gui2xia ,et al. A novel
approach to clustering co2regulated gene[J ]. Journal of
Jilin University ( Science Edition) , 2009 , 47 ( 2) : 2922
298.
[ 6 ] 郑明 ,刘桂霞 ,周春光 ,等. 基于并行免疫遗传算法基
因表达数据库的动态模糊聚类 [J ]. 吉林大学学报 :
理学版 , 2009 ,47 (1) :63268.
Zheng Ming ,Liu Gui2xia ,Zhou Chun2guang ,et al. Dy2
namic fuzzy clustering for analyzing microattay gene ex2
pression data based on a parallel immune genetic algo2
rithm[J ]. Journal of Jilin University (Science Edition) ,
2009 ,47 (1) :63268.
[ 7 ] Xu Rui. Survey of clustering algorithms [ J ]. IEEE
Transactions on Neural Networks ,2005 , 16 (3) : 6452
678.
[ 8 ] Heisele B , Serre T , Prentice S , et al. Hierarchical
classification and feature reduction for fast face detec2
tion with support vector machines[J ]. Pattern Recogni2
tion , 2003 ,36 (9) :200722017.
·881·