⭐ 欢迎来到虫虫下载站! | 📦 资源下载 📁 资源专辑 ℹ️ 关于我们
⭐ 虫虫下载站

📄

📁 自动截取屏幕图像处理并保存的java源程序
💻
📖 第 1 页 / 共 2 页
字号:
<P>清华大学电子工程系、中国科学院计算所智能中心、北京信息工程学院、沈阳自动化研究所等单位分别研制开发出实用化的印刷体汉字识别系统。尤其是由清华大学电子工程系研制的清华</FONT><FONT 
face="MS Sans Serif,Arial">TH-OCR</FONT><FONT 
face=宋体>产品,始终处于技术与产品发展的最前沿,并占据着最大的市场份额,代表着中文</FONT><FONT 
face="MS Sans Serif,Arial">OCR</FONT><FONT face=宋体>技术发展的潮流。</P>
<P>这一成就,是对中华文化宝贵遗产的继承和发扬,在世界电脑发展史上,必将留下光辉的一页,同时,这也是造福子孙千秋万代的大事。国家高技术研究发展</FONT>“<FONT 
face="MS Sans Serif,Arial">863</FONT>”<FONT 
face=宋体>计划、国家重点科技攻关计划、国家自然科学基金和军事基础研究基金都对这一研究课题予以极大的重视和大力的支持。</FONT><FONT 
face=黑体 size=5><B></P>
<P>四、印刷体文字识别研究方法简介</B></FONT><FONT face=宋体></P>
<P>识别方法是整个系统的核心。用于汉字识别的模式识别方法可以大致分为结构模式识别、统计模式识别及两者的结合。下面分别进行介绍。</FONT><B><FONT 
face="MS Sans Serif,Arial"></P>
<P>4.1 </FONT><FONT face=宋体>结构模式识别</B></P>
<P>汉字是一种特殊的模式,其结构虽然比较复杂,但具有相当严格的规律性。换言之,汉字图形含有丰富的结构信息,可以设法提取含有这种信息的结构特征及其组字规律,作为识别汉字的依据,这就是结构模式识别。</P>
<P>结构模式识别是早期汉字识别研究的主要方法。其主要出发点是汉字的组成结构。从汉字的构成上讲,汉字是由笔划</FONT><FONT 
face="MS Sans Serif,Arial">(</FONT><FONT face=宋体>点横竖撇捺等</FONT><FONT 
face="MS Sans Serif,Arial">)</FONT><FONT 
face=宋体>、偏旁部首构成的;还可以认为汉字是由更小的结构基元构成的。由这些结构基元及其相互关系完全可以精确地对汉字加以描述,就像一篇文章由单字、词、短语和句子按语法规律所组成一样。所以这种方法也叫句法模式识别。识别时,利用上述结构信息及句法分析的方法进行识别,类似一个逻辑推理器。</P>
<P>用这种方法来描述汉字字形结构在理论上是比较恰当的,其主要优点在于对字体变化的适应性强,区分相似字能力强;但是,在实际应用中,面临的主要问题是抗干扰能力差,因为在实际得到的文本图象中存在着各种干扰,如倾斜,扭曲,断裂,粘连,纸张上的污点,对比度差等等。这些因素直接影响到结构基元的提取,假如结构基元不能准确地得到,后面的推理过程就成了无源之水。此外结构模式识别的描述比较复杂,匹配过程的复杂度因而也较高。所以在印刷体汉字识别领域中,纯结构模式识别方法已经逐渐衰落,句法识别的方法正日益受到挑战。</FONT><B><FONT 
face="MS Sans Serif,Arial"></P>
<P>4.2 </FONT><FONT face=宋体>统计模式识别</B></P>
<P>统计决策论发展较早,理论也较成熟。其要点是提取待识别模式的的一组统计特征,然后按照一定准则所确定的决策函数进行分类判决。</P>
<P>汉字的统计模式识别是将字符点阵看作一个整体,其所用的特征是从这个整体上经过大量的统计而得到的。统计特征的特点是抗干扰性强,匹配与分类的算法简单,易于实现。不足之处在于细分能力较弱,区分相似字的能力差一些。常见的统计模式识别方法有:</FONT><FONT 
face="MS Sans Serif,Arial"></P>
<P>(1) </FONT><FONT 
face=宋体>模板匹配。模板匹配并不需要特征提取过程。字符的图象直接作为特征,与字典中的模板相比,相似度最高的模板类即为识别结果。这种方法简单易行,可以并行处理;但是一个模板只能识别同样大小、同种字体的字符,对于倾斜、笔划变粗变细均无良好的适应能力。</FONT><FONT 
face="MS Sans Serif,Arial"></P>
<P>(2)</FONT><FONT face=宋体>利用变换特征的方法。对字符图象进行二进制变换</FONT><FONT 
face="MS Sans Serif,Arial">(</FONT><FONT face=宋体>如</FONT><FONT 
face="MS Sans Serif,Arial">Walsh, Hardama</FONT><FONT face=宋体>变换</FONT><FONT 
face="MS Sans Serif,Arial">)</FONT><FONT face=宋体>或更复杂的变换</FONT><FONT 
face="MS Sans Serif,Arial">(</FONT><FONT face=宋体>如</FONT><FONT 
face="MS Sans Serif,Arial">Karhunen-Loeve, Fourier,Cosine</FONT><FONT 
face=宋体>,</FONT><FONT face="MS Sans Serif,Arial">Slant</FONT><FONT 
face=宋体>变换等</FONT><FONT face="MS Sans Serif,Arial">)</FONT><FONT 
face=宋体>,变换后的特征的维数大大降低。但是这些变换不是旋转不变的,因此对于倾斜变形的字符的识别会有较大的偏差。二进制变换的计算虽然简单,但变换后的特征没有明显的物理意义。</FONT><FONT 
face="MS Sans Serif,Arial">K-L</FONT><FONT 
face=宋体>变换虽然从最小均方误差角度来说是最佳的,但是运算量太大,难以实用。总之,变换特征的运算复杂度较高。</FONT><FONT 
face="MS Sans Serif,Arial"></P>
<P>(3)</FONT><FONT 
face=宋体>投影直方图法。利用字符图象在水平及垂直方向的投影作为特征。该方法对倾斜旋转非常敏感,细分能力差。</FONT><FONT 
face="MS Sans Serif,Arial"></P>
<P>(4)</FONT><FONT face=宋体>几何矩</FONT><FONT face="MS Sans Serif,Arial">(Geometric 
Moment)</FONT><FONT face=宋体>特征。</FONT><FONT face="MS Sans Serif,Arial">M. K. 
Hu</FONT><FONT 
face=宋体>提出利用矩不变量作为特征的想法,引起了研究矩的热潮。研究人员又确定了数十个移不变、比例不变的矩。我们都希望找到稳定可靠的、对各种干扰适应能力很强的特征,在几何矩方面的研究正反映了这一愿望。以上所涉及到的几何矩均在线性变换下保持不变。但在实际环境中,很难保证线性变换这一前提条件。</FONT><FONT 
face="MS Sans Serif,Arial"></P>
<P>(5)Spline</FONT><FONT face=宋体>曲线近似与傅立叶描绘子</FONT><FONT 
face="MS Sans Serif,Arial">(Fourier Descriptor)</FONT><FONT 
face=宋体>。两种方法都是针对字符图象轮廓的。</FONT><FONT 
face="MS Sans Serif,Arial">Spline</FONT><FONT 
face=宋体>曲线近似是在轮廓上找到曲率大的折点,利用</FONT><FONT 
face="MS Sans Serif,Arial">Spline</FONT><FONT 
face=宋体>曲线来近似相邻折点之间的轮廓线。而傅立叶描绘子则是利用傅立叶函数模拟封闭的轮廓线,将傅立叶函数的各个系数作为特征的。前者对于旋转很敏感。后者对于轮廓线不封闭的字符图象不适用,因此很难用于笔划断裂的字符的识别。</FONT><FONT 
face="MS Sans Serif,Arial"></P>
<P>(6)</FONT><FONT 
face=宋体>笔划密度特征。笔划密度的描述有许多种,这里采用如下定义:字符图象某一特定范围的笔划密度是在该范围内,以固定扫描次数沿水平、垂直或对角线方向扫描时的穿透次数。这种特征描述了汉字的各部分笔划的疏密程度,提供了比较完整的信息。在图象质量可以保证的情况下,这种特征相当稳定。在脱机手写体的识别中也经常用到这种特征。但是在字符内部笔划粘连时误差较大。</FONT><FONT 
face="MS Sans Serif,Arial"></P>
<P>(7)</FONT><FONT 
face=宋体>外围特征。汉字的轮廓包含了丰富的特征,即使在字符内部笔划粘连的情况下,轮廓部分的信息也还是比较完整的。这种特征非常适合于作为粗分类的特征。</FONT><FONT 
face="MS Sans Serif,Arial"></P>
<P>(8)</FONT><FONT 
face=宋体>基于微结构特征的方法。这种方法的出发点在于,汉字是由笔划组成的,而笔划是由一定方向,一定位置关系与长宽比的矩形段组成的。这些矩形段则称为微结构。利用微结构及微结构之间的关系组成的特征对汉字进行识别,尤其是对于多体汉字的识别,获得了良好的效果。其不足之处是,在内部笔划粘连时,微结构的提取会遇到困难。</FONT><FONT 
face="MS Sans Serif,Arial"></P>
<P>(9)</FONT><FONT face=宋体>特征点特征。早在</FONT><FONT 
face="MS Sans Serif,Arial">1957</FONT><FONT face=宋体>年,</FONT><FONT 
face="MS Sans Serif,Arial">Solatron Electronics Group</FONT><FONT 
face=宋体>公司发布了第一个利用窥视孔</FONT><FONT 
face="MS Sans Serif,Arial">(peephole)</FONT><FONT face=宋体>方法的</FONT><FONT 
face="MS Sans Serif,Arial">OCR</FONT><FONT 
face=宋体>系统。其主要思想是利用字符点阵中一些有代表性的黑点</FONT><FONT 
face="MS Sans Serif,Arial">(</FONT><FONT face=宋体>笔划</FONT><FONT 
face="MS Sans Serif,Arial">)</FONT><FONT face=宋体>,白点</FONT><FONT 
face="MS Sans Serif,Arial">(</FONT><FONT face=宋体>背景</FONT><FONT 
face="MS Sans Serif,Arial">)</FONT><FONT 
face=宋体>作为特征来区分不同的字符。后有人又将这种方法运用到汉字识别中,对其中的黑点又增加了属性的描述,如端点、折点、交叉点等。也获得了比较好的效果。其特点是对于内部笔划粘连的字符的识别的适应性较强,直观性好,但是不易表示为矢量形式,不适合作为粗分类的特征,匹配难度大。</P>
<P>当然还有许多种不同的统计特征,诸如图描述法、包含配选法、脱壳透视法、差笔划法等,这里就不一一介绍了。</FONT><B><FONT 
face="MS Sans Serif,Arial"></P>
<P>4.3 </FONT><FONT face=宋体>统计识别与结构识别的结合</B></P>
<P>结构模式识别与统计模式识别各有优缺点,随着我们对于两种方法认识的深入,这两种方法正在逐渐融合。网格化特征就是这种结合的产物。字符图象被均匀地或非均匀地划分为若干区域,称之为“网格”。在每一个网格内寻找各种特征,如笔划点与背景点的比例,交叉点、笔划端点的个数,细化后的笔划的长度、网格部分的笔划密度等等。特征的统计以网格为单位,即使个别点的统计有误差也不会造成大的影响,增强了特征的抗干扰性。这种方法正得到日益广泛的应用。</FONT><B><FONT 
face="MS Sans Serif,Arial"></P>
<P>4.4 </FONT><FONT face=宋体>人工神经网络</B></P>
<P>人工神经网络</FONT><FONT face="MS Sans Serif,Arial">(Artificial Neural 
Network</FONT><FONT face=宋体>,以下称</FONT><FONT 
face="MS Sans Serif,Arial">ANN)</FONT><FONT 
face=宋体>是一种模拟人脑神经元细胞的网络结构,它是由大量简单的基本元件-神经元相互连接成的自适应非线性动态系统。虽然目前对于人脑神经元的研究还很不完善,我们无法确定</FONT><FONT 
face="MS Sans Serif,Arial">ANN</FONT><FONT 
face=宋体>的工作方式是否与人脑神经元的运作方式相同,但是</FONT><FONT 
face="MS Sans Serif,Arial">ANN</FONT><FONT face=宋体>正在吸引着越来越多的注意力。</FONT><FONT 
face="MS Sans Serif,Arial"></P>
<P>ANN</FONT><FONT 
face=宋体>中的各个神经元的结构与功能较为简单,但大量的简单神经元的组合却可以非常复杂,我们从而可以通过调整神经元间的连接系数完成分类、识别等复杂的功能。</FONT><FONT 
face="MS Sans Serif,Arial">ANN</FONT><FONT 
face=宋体>还具有一定的自适应的学习与组织能力,组成网络的各个</FONT>“<FONT face=宋体>细胞</FONT>”<FONT 
face=宋体>可以并行工作,并可以通过调整</FONT>“<FONT face=宋体>细胞</FONT>”<FONT 
face=宋体>间的连接系数完成分类、识别等复杂的功能。这是冯·诺依曼的计算机无法做到的。</FONT><FONT 
face="MS Sans Serif,Arial"></P>
<P>ANN</FONT><FONT face=宋体>可以作为单纯的分类器</FONT><FONT 
face="MS Sans Serif,Arial">(</FONT><FONT face=宋体>不包含特征提取,选择</FONT><FONT 
face="MS Sans Serif,Arial">),</FONT><FONT 
face=宋体>也可以用作功能完善的分类器。在英文字母与数字的识别等类别数目较少的分类问题中,常常将字符的图象点阵直接作为神经网络的输入。不同于传统的模式识别方法,在这种情况下,神经网络所</FONT>“<FONT 
face=宋体>提取</FONT>”<FONT 
face=宋体>的特征并无明显的物理含义,而是储存在神经物理中各个神经元的连接之中,省去了由人来决定特征提取的方法与实现过程。从这个意义上来说,</FONT><FONT 
face="MS Sans Serif,Arial">ANN</FONT><FONT 
face=宋体>提供了一种“字符自动识别”的可能性。此外,</FONT><FONT 
face="MS Sans Serif,Arial">ANN</FONT><FONT 
face=宋体>分类器是一种非线性的分类器,它可以提供我们很难想象到的复杂的类间分界面,这也为复杂分类问题的解决提供了一种可能的解决方式。</P>
<P>目前,在对于象汉字识别这样超多类的分类问题,</FONT><FONT face="MS Sans Serif,Arial">ANN</FONT><FONT 
face=宋体>的规模会很大,结构也很复杂,现在还远未达到实用的程度。其中的原因很多,主要的原因还在于我们对人脑的工作方式以及</FONT><FONT 
face="MS Sans Serif,Arial">ANN</FONT><FONT 
face=宋体>本身的许多问题还没有找到完美的答案。</FONT><FONT face=黑体 size=5><B></P>
<P>五、汉字识别技术的最新进展</B></FONT><FONT face=宋体></P>
<P>汉字识别最为重要的指标是识别正确率,最新技术包括两个方面:一是使用组合优化特征的综合识别方法,提高正确率,增加适应性;二是英文与数字的比例超过</FONT><FONT 
face="MS Sans Serif,Arial">1/3</FONT><FONT face=宋体>时的汉英双语混排识别。</FONT><B><FONT 
face="MS Sans Serif,Arial"></P>
<P>5.1 </FONT><FONT face=宋体>组合优化特征的综合识别方法</B></P>
<P>抽取单一种类的特征进行汉字识别,误识率较难降低,且抗干扰性不易提高。因为这样所利用的汉字信息量有限,不能全面反映汉字的特点,对任何一种特征来说,必然存在其识别的“死角”,即利用该特征很难区分的汉字。从模式识别的角度来看,若将汉字的全部矢量化特征所组成的空间称作空间<IMG 
height=21 src="印刷体汉字识别系统.files/Image4.gif" width=24></FONT><FONT 
face="MS Sans Serif,Arial">(i=1,2,</FONT><FONT face=宋体>……</FONT><FONT 
face="MS Sans Serif,Arial">)</FONT><FONT 
face=宋体>,那么利用整个空间Ω的信息进行汉字识别,由于提供的汉字信息很充分,抗干扰性会大大增强。</P>
<P>但是,在实际应用中,必须考虑到识别正确率与识别速度</FONT><FONT 
face="MS Sans Serif,Arial">(</FONT><FONT face=宋体>运算量</FONT><FONT 
face="MS Sans Serif,Arial">)</FONT><FONT 
face=宋体>及系统资源三者的折衷。所以任何一个实用的</FONT><FONT 
face="MS Sans Serif,Arial">OCR</FONT><FONT 
face=宋体>系统只利用其中部分子空间的信息。由于信息的缺陷,便不可避免地遇到识别“死角”的问题。

⌨️ 快捷键说明

复制代码 Ctrl + C
搜索代码 Ctrl + F
全屏模式 F11
切换主题 Ctrl + Shift + D
显示快捷键 ?
增大字号 Ctrl + =
减小字号 Ctrl + -