为了正常的体验网站,请在浏览器设置里面开启Javascript功能!

联机手写汉字识别 笔输入 笔 1

2018-02-01 8页 doc 23KB 46阅读

用户头像

is_963767

暂无简介

举报
联机手写汉字识别 笔输入 笔 1联机手写汉字识别 笔输入 笔 1 联机手写汉字识别 笔输入 笔 1 联机手写汉字识别--笔输入--笔(1)2009年03月24日星期二16:402.1什么是笔输入--从键盘输入说起 笔(式)输入也叫做手写输入。它的用途是在一块跟计算机连接的书写板上写字,即时把字符输入计算机。必须指出的是,笔输入的作用不只是输入字符的图形,还要据此对该字符加以识别,并用机内代码来表示,以便于对输入的文字作进一步处理。 电子计算机是西方发明的,用键盘来打印拼音文字在西方已有很长的历史,因此采用键盘向计算机输入拼音文字和标点符号是很自然的事...
联机手写汉字识别  笔输入  笔 1
联机手写汉字识别 笔输入 笔 1 联机手写汉字识别 笔输入 笔 1 联机手写汉字识别--笔输入--笔(1)2009年03月24日星期二16:402.1什么是笔输入--从键盘输入说起 笔(式)输入也叫做手写输入。它的用途是在一块跟计算机连接的书写板上写字,即时把字符输入计算机。必须指出的是,笔输入的作用不只是输入字符的图形,还要据此对该字符加以识别,并用机内代码来表示,以便于对输入的文字作进一步处理。 电子计算机是西方发明的,用键盘来打印拼音文字在西方已有很长的历史,因此采用键盘向计算机输入拼音文字和标点符号是很自然的事,把字母等符号变换为便于计算机处理的编码也不困难。1838年美国人莫尔斯就已发明用点和划两种符号来表示英文字母,用来传送电报信号,使电报机进入实用阶段。1844年美国建成从华盛顿到巴尔的摩全程64公里的电报线路,揭开了人类通信新的一页。这种莫尔斯电码现在还在通信领域(如无线电报)广泛应用。计算机用的内码虽然和莫尔斯电码有所不同,但原理上是一样的,只不过采用位数固定的(0,1)码来表示各个字母而已。因此,采用通常的QWERTY键盘、配以适当软件,就可以把拼音字母以编码的形式直接输入计算机,不需对输入信息再加以识别。当然,如果输入的是写在(或印在)纸上的拼音字母或符号,那就和输入其他手写文字一样,也需要用识别软件进行识别,否则计算机也不可能"懂得"这种手写字母、符号所代表的信息。 方块汉字和拼音字母完全不同,如何把汉字输入计算机呢? 20世纪70年代以前,我国曾仿照西文打字机的式样,研制几种用于打印汉字的大键盘打字机。这种汉字打字机采用一字一"敲"的汉字键盘。键盘的盘面安放着1000多个铅字,盘面上还有两根可分别在水平与垂直两个方向移动的杠杆。移动杠杆使打字用的卡具对准某个汉字,然后敲击按键,就可以把该字打印在纸上。由于汉字字量很大,使得键盘体积不可能太小,机械结构也不简单,操作相当不便。更突出的问题是:打字员还必须熟记每个汉字的位置,否则不但不能提高打印速度,甚至无法工作。此外,大键盘的盘面虽然很大,但 一般也只能容纳1000多个铅字,仅占常用汉字的一半左右(国标GB 2312-80汉字基本集第一级的字数为3755个)。打字员打字时往往由于字盘上没有所需的铅字而不得不开个"天窗",留个空格。这样的汉字字盘,很难满足实际应用的需要。 几十年来我国科技人员为了改善汉字打印工具做了大量极其艰苦但富有成果的研究工作。主要成果之一就是改造原用于西文打字的QWERTY打字机,使其能用于打印方块汉字。最早投入市场并广泛在我国应用的是王永民发明的五笔编码(即所谓王码)。这种键入方法所采用的是标准键盘,体积大大缩小,打字时不像大键盘那样一字一键,一般需击键数次才能打入一个汉字。但是打字人员如果熟练记住各个汉字的"编码",就可以"盲打",使打字速度大大提高。80年代以后,我国经常举行全国性的汉字打字竞赛,速度最快的专业打字人员每分钟可以打入250个汉字左右,相当于、甚至略高于西文打字的速度;一般非专业人员的打字速度也可以达每分钟几十个汉字,基本上满足实际应用的需要。五笔画王码键入方法的成功,不但初步解决了把汉字输入计算机的"瓶颈"问题,对文字工作者也是极大的鼓舞。近二三十年来,不少科技工作者为了改进汉字键入方法,提出了各式各样的编码,如王码、郑码、钱码、肖码、自然码、码根码等等。据估计,80年代的10年间,几乎每个月都有两三种汉字输入码问世,汉字编码输入法总计已有数百种之多,形成一派万"码"奔腾的壮观景象。 但是,近一两年来,这种万"码"奔腾的火爆局面悄然退潮。1999年2月1日《北京科技报》在"热门话题"栏目中,以"万码为何齐喑"的头条标题,报导了"曾经辉煌一时,突破我国汉字输入瓶颈的码型输入法在新技术浪潮下被淘汰出局"的消息。该文作者用"淘汰出局"来描述汉字键入方法在汉字输入领域的处境,并不恰当。键入方法在实际上还很有用武之地,例如一般的办公室今后仍会采用打字机,因为在办公桌上用打字机打字毕竟也很方便,而且也已适合许多人、特别是西方人的习惯。不过在有些场合,例如在室外工作,用打字机输入字符就很不方便,也不符合计算机小型化的潮流。小型计算机,如已有的个人数字助理PDA(personal digital assistant)或正在发展中的掌上电脑,其尺寸比常用的键盘小得多。目前的键盘不可能和掌上电脑等小型化计算工具配合使用;把键盘缩小也不是办法,因为人的手指不可能为适应键盘小型化而变 小。寻找新的输入方法是科学技术发展的必然趋势和要求。笔输入和语音输入等更先进的方法就是在这种情况下随着科学技术的迅速发展应运而生的。 那么,人们能否像平时用笔写字那样,把手写字输入计算机?计算机又是怎样识别手写的文字呢?下面我们就来详细讨论这些问题。 2.2计算机是怎样识别手写汉字的 联机手写汉字识别有时叫做"笔(式)输入"。顾名思义,这是用笔把汉字"写"入计算机,而不是用键盘"敲"入计算机。改敲为写,既不需要死记每个字的编码,而是像通常写字那样,用笔把字直接写入计算机,更符合中国人书写的习惯,也实现了汉字实时输入的要求;此外,这种输入方法既可以用于办公室内,也可以用于室外或其他特殊场合,是一种易学易用的较好的汉字输入方法。 图2.1是笔输入装置的照片。它的硬件主要是书写板和书写笔两部分。书写板跟计算机相连,书写笔在书写板上写字时,笔画信号按书写顺序输入。书写板分为有压感和无压感两种类型。有压感书写笔在书写时能给出着力的轻重、笔画的粗细、着"色"的浓淡,以及书写时间的长短等信息,既可用于输入汉字与各种字符,又具有书法、绘画、签名等功能,是一种用途比较广泛的输入工具。无压感的书写笔则只用于输入字符,价格较为便宜。此外,书写笔还分为有线和无线两种。无线书写笔中有一个发信装置,用来靠电磁波把信号传给计算机,用户使用比较方便。 笔输入系统中,由书写笔传送给计算机的信号是一个一维的笔画串,而不是方块汉字的二维图形。以汉字"女"字为例,在书写板写这个字时,它的笔画(包括笔画类型及其位置)就按书写顺序依次输入计算机,形成具有一定结构关系的笔画串:"く、丿、一"。从原理上说,把汉字集合每个汉字的笔画串存储在计算机中,就组成笔输入系统的"字典"(标准笔画串库)。在识别某一个待识汉字时,也利用书写板把该汉字的笔画串输入计算机,然后把它跟字典中所有的笔画串逐个加以比较,求得和它最相似的笔画串,就得到识别的结果。 上面扼要介绍了笔输入系统的工作原理,实际上如何建造用于识别的字典,以保证系统具有足够高的性能却是一个相当困难、必须认真研究的问题。下面将详细讨论这个问题,并介绍解决这个问题的一些方法。 2.3联机手写汉字识别的困难 字符识别研究初期,有的科技人员对实际上可能发生的问题和困难,估计不足。当时不少人认为0~9十个阿拉伯数码的字形很简单,正确识别问题不难解决。实践表明,这些数码虽然只有十个,字形也不复杂,但是要保证100%的正确识别率却真是难之又难。因为不同的人所写的字形可以说是五花八门、各式各样。有的人写的数字,甚至文化水平很高的人也不认识,用计算机来识别就更为困难。 联机手写汉字识别的情况也是如此。在开展机器自动字符识别研究初期,也有人觉得:联机手写汉字识别应该比印刷汉字识别容易。因为后者的识别对象是二维图形,笔画交叉重叠,不容易分开。联机手写识别时,书写者用书写板写字,已经把原来方块汉字的笔画分开,一笔一笔地向计算机输入,形成了一个一维的笔画串。只要各笔画类型、相互关系等能正确判定,单字就可以正确识别。从理论上说这种看法是对的,但实际上却困难重重。这是因为:汉字除了字量多、字形复杂之外,手写汉字书写时的笔顺和连笔两个问题,对识别率影响很大。下面分别加以说明。 按照国家语言文字工作委员会《信息处理用GB 13000.1字符集》汉字部件的定义,所谓笔顺是指书写每个汉字时笔画的次序和方向。显然,书写时如果笔画的走向或顺序不规范,代表某一单字的笔画串就发生变化,从而影响对单字的正确识别: 1)笔画走向 汉字笔画的书写方向大多是从左至右或由上向下。但也有一些例外,例如"斤、看、毛、爱…"等字的第一笔都是从右至左的"撤",但有的人往往把它写做由左至右的"横"画,这样笔画串就发生变化,可能导致单字错判。更容易发生错误的是"千"字。第一笔也是"撤",如果写成"横"画,就变成"干"字。这些字在汉字集合中还不少,如"刀、刁"、"天、夭"、"王、壬"等。 2)笔画次序 笔画的书写顺序也是影响联机手写汉字识别性能的重要因素。例如"女"字,有的人先写"く"笔,有的则先写"一"笔。顺序不同,同一个字就有两种不同的"笔画串";某些由几个字根组成的字,如果书写顺序不同,其笔画串变化就更大。例如"建"字,有人先写"廴",有的人却先写"聿";又如"回"字,有人先写外边的"口",再写里面的小"口";规范的写法应先写"冂",再写小"口",最后才写下边的一"横画",把大口"封"起来。这些道理说起来简单,但千万人书写习惯要整齐划一就千难万难。显然这种笔顺问题,对联机手写汉字识别必然带来影响。 3)笔画数的变化 汉字的笔画形态也有规范。例如"女"字第一笔的く"只是一画,不能分为"丿"和"丶"而变成两画。又例如:左部首的"阝"和右部首的"阝",都是两画,而不是三画。这些都是常识。但用户的文化水平、书写习惯千差万别,要求做到完全相同实际上并非易事。 4)连笔 这是影响联机手写汉字识别的一个重要因素,或许是最难克服的因素。人们书写时为了加快速度,往往连笔书写。文化程度越高,连笔书写的问题越突出。这是绝大多数联机手写汉字识别系统的识别率不易提高的原因,比笔顺问题更不易解决。 手写汉字分楷书、行书和草书三种字体,如图2.2所示。楷书笔画横平竖直,体形端正;草书字形十分潦草,有的字几乎是一笔呵成。晋代大书法家王羲之书写的草书,有的字几乎无人能够辨认;行书介于两者之间,笔画不完全平直,弧度较大,而且经常连笔书写。例如把原来是三画的"口"字,写成只有两画的""字,不但笔画数目有所改变,笔画类型也不相同。这种情形不胜枚举,是影响联机手写汉字识别系统性能的主要因素。] 解决上述问题的途径有二:一是对用户提出要求,希望用户尽量按正楷字体书写,笔画要横平竖直,笔顺要规范,不连笔。按照这些要求书写的字通常名之为"限制性手写字"。日本电子技术综合研究所ETL-8标准汉字库,所收集的手写汉字,以及我国一些钢笔字帖的字基本上满足这些要求(图2.3,图2.4)。 如果用户按照这些书写,那么一般的笔输入系统的识别率都可以在98以上。可惜,事实上用户的书写习惯和风格很难改变。如果对用户提出过高的要求,则既难做到,也不符合尽量使人机界面更为友好的原则。因此,解决上述问题的另一途径,也是主要途径,应该是在识别软件上多下功夫。这些问题将在下面结合具体情况讨论相应的解决办法。 2.4国内外联机手写汉字识别研究简况 科学技术领域中对新问题的探讨不少是从大学研究生的研究工作开始的,联机手写汉字识别研究似乎也是如此。1966年美国麻省理工学院研究生J.Lin的学位,大概是最早的关于联机手写汉字识别研究的文章之一。20世纪70年代美欧等国在这方面发表的论文较少,可能是他们习惯于用打字机打字的缘故。80年代中期以后:"个人数字助理"(PDA)袖珍型处理器问世。这种装置体积很小,可以随身携带,但无法用键盘来输入字符,笔输入方式才重新在西方受到重视。 日本对联机手写汉字研究较为重视。在日本政府的支持推动下,大学和公司做了很多工作,发表了不少文章。80年代研制成若干种联机手写汉字识别系统,除英文字母、日本假名、数码和标点符号外,能识别的汉字字数约有2000~3000个。1992年夏普公司推出笔输入电子笔记本,可识别5000多个汉字,识别率达95%,使用者可按常规笔顺书写,但对连笔限制较严。该产品代表了日本当时联机手写汉字识别技术的最高水平。 我国关于汉字识别技术研究开展较晚。80年代初个人计算机才在国内逐步得到应用。一些大学和研究机构认识到汉字输入的重要性,积极开展有关研究。1983年中文信息学会第二届全国学术会议在武汉召开,哈工大、江西冶金工程学院、上海仪器仪表研究所等单位在大会宣读了有关联机手写汉字识别的论文,开我国汉字识别研究的先河。1984年11月在北京举办的高科技成果展览会上,哈工大和总参61所联合展出了联机手写汉字识别实验系统,引起了与会学者的高度重视,大大促进了这方面的研制工作。此后哈工大、总参通信部、清华大学与西安交大等单位均有研究成果通过鉴定,但大都属于实验系统,识别汉字字数采用我国国标GB2312-80基本字符集所规定的两级汉字,即3755个或6763个,大大超过当时日本研制的系统所能识别的字数,使我国自己研制的系 统较接近于实用要求。1992年由总参通信部与中科院自动化研究所联合研制成功的联机手写汉字识别系统,以"汉王笔"为名正式投入市场,识别字数为676312000字。用户初次使用时识别率约为80%,经常使用后可达到95%,对笔顺要求也不严格,部分字连笔书写时也能正确识别。在当时计算机速度尚不太高的情况下,识别速度基本上能跟上书写速度。这种产品当时不但在我国内地和香港销售,还销往台湾地区,以至新加坡等国。我国实行改革开放政策以来,国家对汉字识别研究十分重视,先后把它列入国家"七五"、"八五"等重点攻关项目和"863"高科技研究中,大大促进我国有关研究工作的发展。90年代以来,若干种联机手写汉字识别系统,如上述中自公司的汉王笔,以及后来的北大方正的如意笔、清华文通公司的文通笔和哈工大的万通笔等纷纷投入市场,取得了很好的社会效益和经济效益。 近几年来,台湾的"蒙恬笔"、美国摩托罗拉的"慧笔"等笔输入装置,也先后进入我国市场。尤其是摩托罗拉公司仗其雄厚资本,开展巨大宣传攻势,企图抢占我国笔输入的市场,对我国有关企业增加了不小压力。值得我们引以为荣的是:在1995年12月和1998年4月前后两次由我国"863计划智能组主题专家组"组织的实测评比中(这种评比由863专家组主持,每两年举办一次),清华文通笔和中自公司的汉王笔的性能都居于领先地位;对329309个汉字测试的综合结果,我们的识别率比台湾蒙恬笔和摩托罗拉的慧笔高5~6个百分点。但是,竞争的帷幕刚刚揭开,我国研制的系统目前已有的优势不大,而境外公司,包括台湾地区的有关单位,却已大张旗鼓,投入更大的人力物力,在研究和宣传方面和我们竟争。他们除了在改进笔输入系统性能方面下功夫之外,还配合语音输入,进一步改善人-机接口的功能,抢占我国市场更大的份额。我国宋代诗人杨万里诗云:"莫言下岭便无难,赚得行人错喜欢。正人万山圈子里,一山放出一山拦。"今后将困难重重,任重而道远。我们必须做更艰苦的工作,才能保持我们在汉字识别方面研究工作的优势。 特别声明: 1:资料来源于互联网,版权归属原作者 2:资料内容属于网络意见,与本账号立场无关 3:如有侵权,请告知,立即删除。
/
本文档为【联机手写汉字识别 笔输入 笔 1】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。 本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。 网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
热门搜索

历史搜索

    清空历史搜索