扫描好助手 OCR光学字符识别技术
IT.COM.CN
很多朋友在使用扫描仪的时候经常用到OCR,但OCR是什么呢?它在我们日常的使用当中能够帮助我们解决什么问题?它究竟是如何工作的呢?下面,让小编为大家一一解答。
OCR是一种光学字符识别技术,是Optical Character Recognition的英文缩写,它是指电子设备,例如扫描仪、数码相机这一类产品,在检查纸上打印的字符,并通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。换句话说,也就是对文本资料进行扫描,然后将这些图像文件进行分析处理,获取文字及版面信息的过程。
OCR的历史
OCR最早是出现在60、70年代,当时世界各国已经开始研究OCR,也就是OCR的初期,那时候多以文字的识别方法研究为主,且识别的文字仅为0至9的数字。OCR是一种不确定的技术研究,正确率就像是一个无穷趋近函数,知道其趋近值,却只能靠近而无法达到,永远在与100%作拉锯战。因为它所牵涉的因素太多了,例如:书写者的习惯或文件印刷品质、被扫描的原稿质量、识别的方法、学习及测试的样本等等,多多少少都会影响其正确率。因此,OCR的产品除了需有一个强有力的识别核心外,产品的操作使用方便性、所提供的除错功能及方法,亦是决定产品好坏的重要因素。
OCR要实现的目的很简单,就是要把影像作一个转换,使影像内的图形继续保存、有表格则表格内资料及影像内的文字,一律变成计算机文字,使能达到影像资料的储存量减少、识别出的文字可再使用及分析,当然也可节省因键盘输入的人力与时间。从影像到结果输出,须经过影像输入、影像前处理、文字特征抽取、比对识别、最后经人工校正将认错的文字更正,将结果输出。
影像输入
OCR的使用是必须与硬件设备相配合,例如:扫描仪、传真机或摄影器材,将影像转入计算机。随着科技的进步,扫描仪等的输入设备已经是愈来愈精巧轻薄、品质也高,在一定程度上对OCR是有帮助的,扫描仪的分辨率越高,扫描出来的影像就越清晰、扫除速度更可以提升OCR处理的效率。
影像前处理
在OCR系统中,影像前处理是须解决问题最多的一个模块,简单的说,从得到一个不是黑就是白的二值化影像,或灰阶、彩色的影像,到独立出一个个的文字影像的过程,这些都属于影像前处理。它包含了影像正规化、去除噪声、影像矫正等的影像处理,及图文分析、文字行与字分离的文件前处理。而在影像处理方面,在学理及技术方面都已达成熟阶段,因此在市面上或网站上有不少可用的链接库;在文件前处理方面,则凭各家本领了;影像须先将图片、表格及文字区域分离出来,甚至可将文章的编排方向、文章的提纲及内容主体区分开,而文字的大小及文字的字体亦可如原始文件一样的判断出来。
文字特征抽取
单从识别率的角度来说,文字的特征抽取是OCR的核心,特征可说是识别的筹码,可以分为两类:一是统计的特征,如文字区域内的黑/白点数比,当文字区分成好几个区域时,这一个个区域黑/白点数比之联合,就成了空间的一个数值向量,在比对时,基本的数学理论就足以应付了。二是特征为结构的特征,如文字影像细线化后,取得字的笔划端点、交叉点之数量及位置,或以笔划段为特征,配合特殊的比对方法,进行比对,市面上的线上手写输入软件的识别方法多以此种结构的方法为主。
对比数据库
当输入文字算完特征后,不管是用统计或结构的特征,都须有一比对数据库或特征数据库来进行比对,数据库的内容应包含所有欲识别的字集文字,根据与输入文字一样的特征抽取方法所得的特征群组。
对比识别
对比识别可以根据不同的特征特性,从而选用不同的数学距离函数,较有名的比对方法有,欧式空间的比对方法、松弛比对法(Relaxation)、动态程序比对法,以及类神经网络的数据库建立及比对、HMM等方法,为了使识别的结果更稳定,利用各种特征比对方法的相异互补性,使识别出的结果,其信心度特别的高。
字词后处理
OCR的识别率是无法达到100%的,如果希望增加准确率,就需要一些除错或甚至帮忙更正的功能,这也是OCR系统中必要的一个模块。字词后处理就是一例,利用比对后的识别文字与其可能的相似候选字群中,根据前后的识别文字找出最合乎逻辑的词,做更正的功能。
字词数据库
字词数据库是为字词后处理所建立的词库。
人工校正
人工校正是OCR的最后关卡,使用者可能只是拿支鼠标,跟着软件设计的节奏操作或仅是观看,而在此有可能须特别花使用者的精神及时间,去更正甚至找寻可能是OCR出错的地方。一个好的OCR软件,除了有一个稳定的影像处理及识别核心,以降低错误率外,人工校正的操作流程及其功能,亦影响OCR的处理效率,因此,文字影像与识别文字的对照,及其屏幕信息摆放的位置、还有每一识别文字的候选字功能、拒认字的功能、及字词后处理后特意标示出可能有问题的字词,都是为使用者设计尽量少使用键盘的一种功能,当然,不是说系统没显示出的文字就一定正确,就像完全由键盘输入的工作人员也会有出错的时候,这时要重新校正一次或能允许些许的错,就完全看使用单位的需求了。
输出结果
OCR可以帮助用户将文本文件作部份文字的再使用之用,也可以将原文重现。如果需要还原成原文一样格式,则在识别后,需要人工排版,耗时耗力。