浅谈OCR技术的发展和应用
56 福 建 电 脑 2012年第 6期
浅谈 OCR技术的发展和应用
王文华
(昭通师范高等专科学校 云南 昭通 657000)
【摘 要】:介绍了OCR技术的起源和发展现状,以及 OCR技术的在当前信息社会中的
应 用状 况 。
【关键词】:光学字符识别 OCR技术
1、OCR技术概述
所谓 OCR (Optical Character Recognition光
学字符识别)技术,是指利用电子设备(例如扫描
仪或数码相机)检查纸上打印的字符.通过检测
暗、亮的模式确定其形状,然后用字符识...
56 福 建 电 脑 2012年第 6期
浅谈 OCR技术的发展和应用
王文华
(昭通师范高等专科学校 云南 昭通 657000)
【摘 要】:介绍了OCR技术的起源和发展现状,以及 OCR技术的在当前信息社会中的
应 用状 况 。
【关键词】:光学字符识别 OCR技术
1、OCR技术概述
所谓 OCR (Optical Character Recognition光
学字符识别)技术,是指利用电子设备(例如扫描
仪或数码相机)检查纸上打印的字符.通过检测
暗、亮的模式确定其形状,然后用字符识别方法将
形状翻译成计算机文字的过程。即,对文本资料进
行扫描.然后对图像文件进行
处理.获取文字
及版面信息的过程。随着计算机技术的迅猛发展,
信息电子化已经成为一个必然趋势。而文字是信
息中最重要的一种载体.其电子化程度决定了信
息化的程度。OCR技术改变了传统的纸质介质资
料输入的概念。通过 OCR技术.用户可以将通过
摄像机、扫描仪等光学输入方式得到的报刊、书
籍、文稿、#
格#等印刷品的图像信息转化为可以供
计算机识别和处理的文本信息。因此,与传统的手
工录入方式相比.OCR技术大大提高了人们进行
资料存储、检索、加工的效率。目前市场上符合银
行、证券、保险、税务、公安、海关、机场、工商、军队
及其它行业应用的OCR产品已经相对成熟 .它们
已经通过市场检验并被广大用户大规模使用
2、OCR技术的发展及应用
OCR技术诞生于 1929年 .由德国的科学家
Tausheck首先提出。利用光学技术对文字和字符
进行扫描识别,并将其转化为计算机内码。
第一个 OCR软件是在 1957年开发的 ERA
(Electric Reading Automation)。它是基于窥视孔方
法实现的.识别的速度是每秒 120个英文字母。从
OCR技术的发展历程来看,可分为三个阶段:
第一代OCR产品出现于 60年代初期。NCR
公司、Farrington公司、IBM公司分别研制出了自
己的OCR软件。它只能识别印刷体的数字、英文
字母及部分符号.并且必须是指定的字体。
第二代 OCR产品出现于 60年代中期到 70
年代初期,可以识别手写体字符。日本东芝公司研
制将其开发的 OCR产品应用于IBM公司于手写
体邮政编码识别的信函自动分拣系统.信函的分
拣率达到 92%~93%.并且广泛地应用在现实生活
中。发挥着较好的作用。
第三代 OCR产品主要解决的技术问题就是
对于质量较差的文档及大字符集的识别.例如汉
字的识别。日本东芝公司于 1983年发布了其识别
印刷体日文汉字的OCR系统.其识别速度为每秒
70~100个汉字,最高识别率达到99.5%。经过不
断改进.针对手写印刷体 13文汉字的识别现在已
经达到实际应用水平
我国在 OCR技术方面的研究工作起步较晚.
在 7O年代才开始对数字、英文字母及符号的识别
进行研究;7O年代末开始进行汉字识别的研究。
我国政府从七五科技攻关计划开始到现在的 863
计划一直长期支持中文 OCR的研发.是中文 OCR
技术进步的最重要推动力。从 80年代中期开始。
国内开始了中文 OCR的研究热潮.到 90年代中
期.国内汉王公司推出了汉王中文 OCR系统。达
到可初步实用化的水平 、
从中文 OCR技术的发展来看.其研发与应用
经历了如下几个阶段:
(1)印刷体单字体识别 .支持 国标一级汉字
3755字、繁体 5401字。简繁体和字体由用户指
明.识别率在 95%左右:
(2)印刷体多字体识别 .支持国标一级汉字
3755字,繁体 5401字,简繁体由用户指明,宋仿
楷黑四体混合识别.识别率在 95%左右.对质量较
差的印刷文稿的识别率会明显下降.印刷体表格
的识别系统开始出现:
(3)多字体大字符集简繁混排、中英文混排识
别,支持国标二级汉字 6763字、繁(下转第 92页)
万方数据
福 建 电 脑 2012年第 6期
行 。
服务器端程序文件只有一个 .假设其名称为
Demo.asp.使用时只需在 GE上动态增加一个网络
连接,即可生成一个动态运行的交通工具。如 http:
//127.0.0.1/Demo.asp?id =l&PathKml =path1.
kml&MarkKml=plane.km1.其中的ID参数用于区
分多个运动物体.MarkKml用于指定当前运动物
体图像的地标(如汽车、飞机等)文件名,可不加.
kml,PathKml用于指定运行的路线图文件名,可不
加 .kml
其主要代码如下:
Response.CacheControl= ‘ no-cache”
PathKml=UCase(request(”pathkml”)&””)
MarkKml=UCase(request(”MarkKml”)&⋯’)
if Right(PathKml,41<>”.KML”then PathKml=PathKml& ”.
KML’。
if Right(MarkKml,4)<>".KML”then MarkKml=MarkKml&
”
.KML”
Id=request(”id”1&⋯
获取坐标号
Pathld=Session(Id&”pathid”)&⋯’
if Pathld=⋯’then Pathld---0 else PathId=Cint(Pathld1
载入路标文件 .并 替换坐标
set xmldoe=server.createobject(”microsoft.xmldom”、
xmldoc.1oad(server.mappath(PathKm1))
ZuiBiaoList= xmldoc.selectsin enode("/kml/Documenff
PIacemark/LineString/coordinates”).text
ZuiBiaoList=split(ZuiBiaoList,””)
if PathId>Ubound(ZuiBiaoList)then Pathld=0
NewZuobiao=ZuiBiaoList(Pathld)
Session(Id&”pathid”)=Pa~Id+l
xmldoc.1oad(server.mappath(MarkKm1))
xmldoc.selectsinglenode ("/kml/Document/Placemark/Point/
coordinates”).text=NewZuobiao
response.write xmldoc.x【nl
4、结语
本文实现了基于 GoogleEarth二次开发 的物
流车辆监控系统.详细介绍了该系统的设计思路
及实现过程。可以看出,GoogleEarth作为一种广
受欢迎的地理信息系统。在很多方面有着巨大的
应用市场。
参考文献 :
[1】王强 郭进田 王宝庆 S-T-Google Earth实时交通控制
系统的实现西安文理学院学报(自然科学版)2008.04
[2]耿长良 GoogleEarth在城市轨道交通工程控制网布设
中的应 用 测绘通报 2011.7
(上接第 56页)
体 5401字、香港常用字等 1万多字,识别字体扩
充到常见的十多种字体.识别率在 99%左右.对质
量较差的印刷文稿的识别率有较强的适应性,脱
机手写数字识别和印刷体表格识别系统进入实用
化阶段 :
(4)各种应用系统开始推出,如名片识别系统、
汉王文本王、银行票据识别系统、增值税发票识别
认证系统等
由于新世纪初中文 OCR的识别率偏低。用户
满意度低.几乎没有 OCR的行业应用项 目,随着
国内信息化建设的进展.市场迫切需要解决多字
体大字符集、中英文混排、简繁混排、表格识别的
识别率和识别速度问题,版面的理解与还原问题 ,
识别系统对各种应用需求的适应性问题以及用户
使用的方便性问题。
3、结语
如今.OCR技术在我国的应用极为广泛 ,可
以说有汉字的地方就有 OCR技术应用的存在。在
信息技术及计算机技术 日益普及的今天,如何将
文字方便、快捷地输入到计算机中已经成为影响
人机接口效率的一个重要难题,也关系到计算机
是否能够真正在我国得到普及和应用。目前,OCR
对英文的正确识别率较高。而对于汉字,尤其是手
写汉字.识别率较低。如何提高 OCR对手写汉字
的识别率.将是未来的一个重要的研究方向。
参考文献:
[1】陈熙霖.《手写体 字符识别》,模式识别与人工智能 ,
1993
【2】凌山.((OCR汉字识别技术》,工程设计CAD与智能建
筑 .1999
[31白桦.《提高OCR识别率》.电脑知识与技术,2004
[4】邢立民,陈永琴.《扫描仪的 OCR技术》.实验 室科 学,
2006
万方数据
浅谈OCR技术的发展和应用
作者: 王文华
作者单位: 昭通师范高等专科学校,云南昭通,657000
刊名: 福建电脑
英文刊名: Fujian Computer
年,卷(期): 2012,28(6)
本文链接:http://d.g.wanfangdata.com.cn/Periodical_fjdn201206027.aspx
本文档为【浅谈OCR技术的发展和应用】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑,
图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。