📄
字号:
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN">
<!-- saved from url=(0040)http://166.111.64.166/thocr_descript.htm -->
<HTML><HEAD><TITLE>印刷体汉字识别系统</TITLE>
<META http-equiv=Content-Type content="text/html; charset=gb2312">
<META content="MSHTML 6.00.2800.1276" name=GENERATOR></HEAD>
<BODY><FONT face=宋体>
<H1 align=center>印刷体汉字识别系统</H1></FONT>
<P> <B><FONT face=宋体 size=6></P></FONT><FONT face=宋体 size=3>
<P></FONT><FONT face=黑体 size=5>一、文字识别概述</FONT></B><FONT face=宋体></P>
<P>汉字是历史悠久的中华民族文化的重要结晶,闪烁着中国人民智慧的光芒。汉字数量众多,仅清朝编纂的《康熙字典》就包含了</FONT><FONT
face="MS Sans Serif,Arial">49</FONT><FONT face=宋体>,</FONT><FONT
face="MS Sans Serif,Arial">000</FONT><FONT
face=宋体>多个汉字,其数量之大,构思之精,为世界文明史所仅有。由于汉字为非字母化、非拼音化的文字,所以在信息技术及计算机技术日益普及的今天,如何将汉字方便、快速地输入到计算机中已成为关系到计算机技术能否在我国真正普及的关键问题。</P>
<P align=center><IMG height=196 src="印刷体汉字识别系统.files/ocr_catalog.gif"
width=387></P>
<P> <B></P>
<P align=center>图</FONT><FONT face="MS Sans Serif,Arial">1 </FONT><FONT
face=宋体>文字识别的分类</B></P>
<P>将汉字输入到计算机里一般有两种方法:人工键入和自动输入。其中人工键入速度慢而且劳动强度大,一般的使用者每分钟只能输入</FONT><FONT
face="MS Sans Serif,Arial">40</FONT><FONT face=宋体>~</FONT><FONT
face="MS Sans Serif,Arial">50</FONT><FONT
face=宋体>个汉字。这种方法不适用于需要处理大量文字资料的办公自动化、文档管理、图书情报管理等场合。而且随着劳动力价格的升高,利用人工方法进行汉字输入也将面临经济效益的挑战。自动输入又分为汉字识别输入及语音识别输入。</P>
<P>由于汉字数量众多,汉字识别问题属于超多类模式集合的分类问题。汉字识别技术可以分为印刷体识别及手写体识别技术。而手写体识别又可以分为联机</FONT><FONT
face="MS Sans Serif,Arial">(on-line)</FONT><FONT face=宋体>与脱机</FONT><FONT
face="MS Sans Serif,Arial">(off-line)</FONT><FONT
face=宋体>两种。这种划分方法可以用图</FONT><FONT face="MS Sans Serif,Arial">1</FONT><FONT
face=宋体>来表示。</P>
<P>从识别技术的难度来说,手写体识别的难度高于印刷体识别,而在手写体识别中,脱机手写体的难度又远远超过了联机手写体识别。</P>
<P>到目前为止,除了脱机手写体数字的识别已有实际应用外,汉字等文字的脱机手写体识别还处在实验室阶段。</P>
<P>联机手写体的输入,是依靠电磁式或压电式等手写输入板来完成的。在书写时,笔在板上的运动轨迹</FONT><FONT
face="MS Sans Serif,Arial">(</FONT><FONT face=宋体>在板上的坐标</FONT><FONT
face="MS Sans Serif,Arial">)</FONT><FONT
face=宋体>被转化为一系列的电信号,电信号可以串行地进入到计算机中。从这些电信号我们可以比较容易地抽取笔划和笔顺的信息。从</FONT><FONT
face="MS Sans Serif,Arial">90</FONT><FONT
face=宋体>年代以来,联机手写体的识别正逐步走向实用,方兴未艾。中国大陆及台湾地区的科研工作者推出了多个联机手写体汉字识别系统,国外的一些大公司也开始进入这一市场。这一技术也迎合了</FONT><FONT
face="MS Sans Serif,Arial">PDA(Personal Digital Assistant)</FONT><FONT
face=宋体>的发展潮流。</P>
<P>与脱机手写体和联机手写体识别相比,印刷体汉字识别已经实用化,而且在向更高的性能、更完善的用户界面的方向发展。因为它有着广泛的应用前景。目前,办公自动化已成为信息社会不可避免的发展趋势。虽然在计算机网络飞速发展的今天,许多信息已经电子化,世界各地出现了许多“电子版”的报纸、杂志等出版物。但是我们可以看到印刷材料的数量也大大地增加了,一些专业单位如新闻社、图书馆、古籍出版社、档案馆等所接触的印刷材料更是浩如烟海,毕竟阅读印刷材料更为符合人的自然阅读习惯;同时,网络信息资源的爆炸性增长以及网络传输容量的限制,都是方便、快速地获取这些信息的约束因素。电子化的与印刷文本材料如同一枚硬币的两面,互相补充、互相促进,在未来的十几年或更长的时间内将不会出现一者被另一者取代的情况。</FONT><FONT
face=黑体 size=5><B></P>
<P>二、印刷体文字识别流程简介</B></FONT><FONT face=宋体></P>
<P>印刷体文字识别的过程如图</FONT><FONT face="MS Sans Serif,Arial">2</FONT><FONT
face=宋体>所示。原始图象是通过光电扫描仪,</FONT><FONT face="MS Sans Serif,Arial">CCD</FONT><FONT
face=宋体>器件或电子传真机等获得的二维图象信号,可以是灰度</FONT><FONT
face="MS Sans Serif,Arial">(Grayscale)</FONT><FONT face=宋体>或二值</FONT><FONT
face="MS Sans Serif,Arial">(Binary) </FONT><FONT
face=宋体>图象。为简单计,在本文以后的论述中,除非特别提及,图象输入的方式均指由扫描仪输入。</P>
<P> <B></P>
<P align=center><IMG height=306 src="印刷体汉字识别系统.files/OCR_process.gif"
width=230></P>
<P align=center>图</FONT><FONT face="MS Sans Serif,Arial">2 </FONT><FONT
face=宋体>印刷体文字识别的简单流程图</B></P>
<P>预处理包括对原始图象的去噪、倾斜校正或各种滤波处理。版面分析完成对于文本图象的总体分析,区分出文本段落及排版顺序,图象、表格的区域;对于文本区域将进行识别处理,对于表格区域进行专用的表格分析及识别处理,对于图象区域进行压缩或简单存储。行字切分是将大幅的图象先切割为行,再从图象行中分离出单个字符的过程。特征提取是整个环节中最重要的一环,它是从单个字符图象上提取统计特征或结构特征的过程,包括为此而做的细化</FONT><FONT
face="MS Sans Serif,Arial">(Thinning)</FONT><FONT face=宋体>、归一化</FONT><FONT
face="MS Sans Serif,Arial">(Normalization)</FONT><FONT
face=宋体>等步骤。提取的特征的稳定性及有效性,直接决定了识别的性能。文字识别即从学习得到的特征库中找到与待识字符相似度最高的字符类的过程。后处理则是利用词义、词频、语法规则或语料库等语言先验知识对识别结果进行校正的过程。</P>
<P>由此可见,印刷汉字识别技术主要包括:</P>
<BLOCKQUOTE>
<BLOCKQUOTE>
<BLOCKQUOTE></FONT><FONT face="MS Sans Serif,Arial">
<P>(1) </FONT><FONT face=宋体>扫描输入文本图象。</P></FONT><FONT
face="MS Sans Serif,Arial">
<P>(2) </FONT><FONT face=宋体>图象的预处理,包括倾斜校正和滤除干扰噪声等。</P></FONT><FONT
face="MS Sans Serif,Arial">
<P>(3) </FONT><FONT face=宋体>图象版面的分析和理解。</P></FONT><FONT
face="MS Sans Serif,Arial">
<P>(4) </FONT><FONT face=宋体>图象的行切分和字切分。</P></FONT><FONT
face="MS Sans Serif,Arial">
<P>(5) </FONT><FONT face=宋体>基于单字图象的特征选择和提取。</P></FONT><FONT
face="MS Sans Serif,Arial">
<P>(6) </FONT><FONT face=宋体>基于单字图象特征的模式分类。</P></FONT><FONT
face="MS Sans Serif,Arial">
<P>(7) </FONT><FONT face=宋体>将被分类的模式赋予识别结果。</P></FONT><FONT
face="MS Sans Serif,Arial">
<P>(8) </FONT><FONT
face=宋体>识别结果的编辑修改后处理。</P></BLOCKQUOTE></BLOCKQUOTE></BLOCKQUOTE>
<P>其中</FONT><FONT face="MS Sans Serif,Arial">(4)</FONT><FONT
face=宋体>、</FONT><FONT face="MS Sans Serif,Arial">(5)</FONT><FONT
face=宋体>和</FONT><FONT face="MS Sans Serif,Arial">(6)</FONT><FONT
face=宋体>,也就是图</FONT><FONT face="MS Sans Serif,Arial">2</FONT><FONT
face=宋体>中的阴影部分,是印刷汉字识别中最为核心的技术。近几年来,印刷汉字识别系统的单字识别正确率已经超过</FONT><FONT
face="MS Sans Serif,Arial">95%</FONT><FONT
face=宋体>,为了进一步提高系统的总体识别率,扫描图象、图象的预处理以及识别后处理等方面的技术,也都得到了深入的研究,并取得了长足的进展,有效地提高了印刷汉字识别系统的总体性能。</FONT><FONT
face=黑体 size=5><B></P>
<P>三、印刷体文字识别的研究历程</B></FONT><FONT face=宋体></P>
<P>印刷体文字的识别可以说很早就成为人们的梦想,早在</FONT><FONT
face="MS Sans Serif,Arial">1929</FONT><FONT face=宋体>年,</FONT><FONT
face="MS Sans Serif,Arial">Taushek</FONT><FONT face=宋体>就在德国获得了一项有关</FONT><FONT
face="MS Sans Serif,Arial">OCR</FONT><FONT
face=宋体>的专利。欧美国家为了将浩如烟海、与日俱增的大量报刊杂志、文件资料和单据报表等文字材料输入计算机进行信息处理,从</FONT><FONT
face="MS Sans Serif,Arial">50</FONT><FONT face=宋体>年代就开始了西文</FONT><FONT
face="MS Sans Serif,Arial">OCR(Optical Character Recognition</FONT><FONT
face=宋体>,光学字符识别</FONT><FONT face="MS Sans Serif,Arial">)</FONT><FONT
face=宋体>技术的研究,以便代替人工键盘输入。</P>
<P>印刷体汉字的识别最早可以追溯到</FONT><FONT face="MS Sans Serif,Arial">60</FONT><FONT
face=宋体>年代。</FONT><FONT face="MS Sans Serif,Arial">1966</FONT><FONT
face=宋体>年,</FONT><FONT face="MS Sans Serif,Arial">IBM</FONT><FONT
face=宋体>公司的</FONT><FONT face="MS Sans Serif,Arial">Casey</FONT><FONT
face=宋体>和</FONT><FONT face="MS Sans Serif,Arial">Nagy</FONT><FONT
face=宋体>发表了第一篇关于印刷体汉字识别的论文,在这篇论文中他们利用简单的模板匹配法识别了</FONT><FONT
face="MS Sans Serif,Arial">1,000</FONT><FONT face=宋体>个印刷体汉字。</FONT><FONT
face="MS Sans Serif,Arial">70</FONT><FONT
face=宋体>年代以来,日本学者做了许多工作,其中有代表性的系统有</FONT><FONT
face="MS Sans Serif,Arial">1977</FONT><FONT face=宋体>年东芝综合研究所研制的可以识别</FONT><FONT
face="MS Sans Serif,Arial">2000</FONT><FONT face=宋体>汉字的单体印刷汉字识别系统;</FONT><FONT
face="MS Sans Serif,Arial">80</FONT><FONT
face=宋体>年代初期,日本武藏野电气研究所研制的可以识别</FONT><FONT
face="MS Sans Serif,Arial">2300</FONT><FONT
face=宋体>个多体汉字的印刷体汉字识别系统,代表了当时汉字识别的最高水平。此外,日本的三洋、松下、理光和富士等公司也有其研制的印刷汉字识别系统。这些系统在方法上,大都采用基于</FONT><FONT
face="MS Sans Serif,Arial">K-L</FONT><FONT
face=宋体>数字变换的匹配方案,使用了大量专用硬件,其设备有的相当于小型机甚至大型机,价格极其昂贵,没有得到广泛应用。</P>
<P>我国对印刷汉字识别的研究始于</FONT><FONT face="MS Sans Serif,Arial">70</FONT><FONT
face=宋体>年代末、</FONT><FONT face="MS Sans Serif,Arial">80</FONT><FONT
face=宋体>年代初,大致可以分为三大阶段:</FONT><FONT face="MS Sans Serif,Arial"></P>
<P>(1) </FONT><FONT face=宋体>第一阶段从</FONT><FONT
face="MS Sans Serif,Arial">70</FONT><FONT face=宋体>年代末期到</FONT><FONT
face="MS Sans Serif,Arial">80</FONT><FONT face=宋体>年代末期,主要是算法和方案探索。</FONT><FONT
face="MS Sans Serif,Arial"></P>
<P>(2) </FONT><FONT face=宋体>第二阶段是</FONT><FONT
face="MS Sans Serif,Arial">90</FONT><FONT face=宋体>年代初期,中文</FONT><FONT
face="MS Sans Serif,Arial">OCR</FONT><FONT face=宋体>由实验室走向市场,初步实用。</FONT><FONT
face="MS Sans Serif,Arial"></P>
<P>(3) </FONT><FONT
face=宋体>第三阶段也就是目前,主要是印刷汉字识别技术和系统性能的提高,包括汉英双语混排识别率的提高和稳健性的增强。</P>
<P>同国外相比,我国的印刷体汉字识别研究起步较晚。但由于我国政府对汉字自动识别输入的研究从</FONT><FONT
face="MS Sans Serif,Arial">80</FONT><FONT
face=宋体>年代开始给予了充分的重视和支持,经过科研人员十多年的辛勤努力,印刷体汉字识别技术的发展和应用,有了长足进步:从简单的单体识别发展到多种字体混排的多体识别,从中文印刷材料的识别发展到中英混排印刷材料的双语识别。各个系统可以支持简、繁体汉字的识别,解决了多体多字号混排文本的识别问题,对于简单的版面可以进行有效的定量分析,同时汉字识别率已达到了</FONT><FONT
face="MS Sans Serif,Arial">98%</FONT><FONT face=宋体>以上。</P>
⌨️ 快捷键说明
复制代码
Ctrl + C
搜索代码
Ctrl + F
全屏模式
F11
切换主题
Ctrl + Shift + D
显示快捷键
?
增大字号
Ctrl + =
减小字号
Ctrl + -