兼顾连笔及笔顺自由的联机手写汉字识别方法
兼顾连笔及笔顺自由的联机手写汉字识别
方法
94第12期NO.12宜宾学院JournalofYibinUniversity
兼顾连笔及笔顺自由的联机手写汉字识别方法
杨强,马森,程玉昆
(宜宾学院计算机与信息科学系,四川宜宾644000)
摘要:文章将手写汉字的可见线段和不可见线段进行联合编码,并对汉字笔画编码进行加权分类,较好的解决了联机手写汉字识别中连笔及笔顺自
由问题,最后采用无回溯串匹配算法实现了汉字识别.
关键词:连笔;笔顺;联机手写汉字识别
中图分类号:TP391.1文献标识码:A文章编号:1671—5365(2007】12-0094-02
0引言
联机手写汉字识别技术涉及模式识别,图象处理,自然语言
理解,人工智能等多种学科,是一门综合性技术,在中文信息处
理,办公自动化,机器翻译,人工智能等高技术领域,都有着重要
的实用价值和理论意义.
在联机手写汉字输入中,一方面,可以通过汉字的笔向和笔
顺等辅助信息取得较高的汉字识别率.另一方面,也存在因个人
书写习惯的不同而导致各不相同的连笔及倒画笔现象,从而造
成汉字笔段分解的不稳定而影响汉字的识别率.因此,在联机手
写汉字识别中,如何兼顾连笔和笔顺这两方面问题实现汉字的
手写输入,是值得研究的课题?.本文主要分析了兼顾连笔及
笔顺自由的汉字特征编码及其识别方法.
1兼顾连笔及笔顺自由的汉字特征编码
1.1归一化
由于个人书写习惯的不同,汉字书写的随意性较大,汉字尺
寸和输入框中的位置差别较大,这些差异性会影响识别结果,为
了让每一个汉字的差异性降到最小,需要对汉字输入位置及尺
寸进行归一化.
设汉字的外接矩形框长和高分别为width和high,首先将外
接矩形的中心平移到书写平面的中心,然后按100100的尺寸
大小进行归一化,归一化公式如式1所示:
Xt:Xt100/widthYiYlO0/high(1)
1.2汉字笔画编码
汉字笔划可粗略划分为两大类:单向笔划和变向笔划.单向
笔划主要是指笔划的走向保持在某一方向上,即四种基本笔划
横,竖,撇,捺.变向笔划主要是指笔划的走向不只是出现在某个
方向,可能会有两个或两个以上的方向,即复合笔划.本文将
复合笔划进行了归类,分为三种,一是顺笔划,即笔划的变向
是按照顺时针规律变化的;二是逆笔划,笔划的变向是按照逆时
针规律变化的;三是混合笔划,笔划的变向既有顺时针又有逆时
针变化的.并对这几类笔划进行了编码,其编码如
1所示.
表1汉字笔画编码
Tabl,Thecodingofcharactersstrokes
1.3兼顾连笔及笔顺自由的汉字特征编码
为解决连书写汉字的轨迹编码问题,本文将落笔到提笔的
可见线段称为ON线,从提笔到下一次的落笔所经过的不可见线
段称为OFF线,将输入汉字所有的ON线和OFF线都作为汉字
书写轨迹而进行笔画编码J.这样将ON线和OFF线一同编
码,在进行汉字识别时等于匹配汉字的行笔方向和位置等信息,
而避开了落笔和提笔等信息,能有效地解决汉字连笔书写的问
题.
同时,在对手写汉字书写规律进行研究时发现,书写汉字
的第1,2笔画和最后一笔很少l在倒画笔现象,因此对汉字笔
画特征进行编码时,将第1,2,末笔这三个笔画编码作为第一特
征编码,将其余笔画编码按序作为第二特征编码,在进行汉字
识别时,优先匹配第一特征编码,这样能有效解决手写汉字的
笔顺问题.
收稿日期:2007—09—10
基金项目:四川省宜宾学院校级科研项目:2007S17
作者简介:杨强(1978一),男,四川广安人,讲师,硕士,主要从事图形图像处理与模式识别研究;马森78一),男,讲师,主要从事图像处理与软件
开发
研究;程玉昆(1974,),男,高级实验师,主要从事图像处理研究.
2007年12月杨强,马森,程玉昆:兼顾连笔及笔顺自由的联机手写汉字识别方法95
2兼顾连笔及笔顺自由的汉字识别
设得到的手写汉字第一特征编码为Wsa:{S,,S,S},第二
特征编码为w:{S…Si…S一,}.
库中第j个汉字的第一
特征编码为w.j:{Sjl,Sj2,Sj},第二特征编码为wbj:{Sj3…S_i
…
S泗一
,}.识别过程即为计算w和wi以及w幽和Wi之间的
相似度P(w,w.)和P(wb,w).
在对第一特征进行匹配时,如果:
Si和Sji为相同类型笔段,则Pij(Si,Sij):1;
在对第二特征进行匹配时,如果:
Si和Sji为相同类型笔段,则Pij(Si,Sii)=0.5;
最后,计算其总相似度,计算公式如式2所示:
P:?P(2),=1
当Pi大于给定的阈值时,则标准库中第1个汉字即为当前
手写汉字的一个候选字.当有多个候选字时,各候选字按Pi值
的大小依次排序,具有最大相似度的候选字即为识别结果].
3测试实验
本文采用Delphi6.0编写了一个联机手写汉字输入模拟系
统,如图1所示.
-一.….一
L
l薯
图1联机手写汉字输入模拟系统
Thesimulationsystemofon——linehandwriuenChinesecharacterrecogni
一
系统通过鼠标的移动路径来模拟汉字的书写轨迹,并对常
用的500个汉字进行了实验测试,实验表明,平均识别率达到了
95%以上,并取得了较高的时效性.
4结束语
本文将手写汉字的可见线段和不可见线段进行联合编码,
并将汉字笔画编码进行加权分类,较好的解决了联机手写汉字
识别中连笔及笔顺自由的问题.匹配识别算法采用了通常的无
回溯串匹配算法,其空间和时间复杂度均为0(n),具有较高的
时效性.同时,寻求较好的汉字匹配识别算法,以提高汉字识别
率是值得进一步研究的问题.
参考文献:
[1]征荆,丁晓青,吴佑寿等.兼顾连笔和笔顺的联机手写汉字识别
方法[J].大学(自然科学版),1997,37(9):95—99.
[2]余楚中,赵学军,彭静等.联机手写体汉字识别中的笔划分类及
笔划识别[J].重庆大学,1998,2(2):131—134.
[3]曹艚炯,王永成.笔顺连笔自由的联机手写汉字识别[J].计算机
工程与应用,2005,29:167—169.
[4]姚丹霖,殷建平.一种联机手写汉字识别方法[J].国防科技大学
,1997,19(1):32—35.
On——lineHandwrittenChineseCharacterRecognitionMethodHandlingBoth
StrokeConnectionandStrokeOrderVariation
YANGQiang,MASen,CHENGYu—kun
(DepartmentofComputerSciences,YibinUniversity,Yibin644000,China)
Abstract:ThearticlecodeswithobviousrouteandsightlessrouteofChinesecharacter,andclassifiesthecodingofChinese
character,whichresolvetheproblemofstrokeconnectionandstrokeordervariation.FinallythearticlerealizestheChinese
characterrecognitionadoptingthecharacter—matchingarithmetic.
Keywords:StrokeConnection;StrokeOrderVariation;On—lineChineseCh
aracterRecognition