⭐ 欢迎来到虫虫下载站! | 📦 资源下载 📁 资源专辑 ℹ️ 关于我们
⭐ 虫虫下载站

📄 00000003.htm

📁 一份很好的linux入门资料
💻 HTM
字号:
<HTML><HEAD>  <TITLE>BBS水木清华站∶精华区</TITLE></HEAD><BODY><CENTER><H1>BBS水木清华站∶精华区</H1></CENTER>发信人:&nbsp;yanglc&nbsp;(魂归燕园~~别理我,烦着呢),&nbsp;信区:&nbsp;Linux&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;<BR>标&nbsp;&nbsp;题:&nbsp;汉字编码标准与识别(四)&nbsp;<BR>发信站:&nbsp;BBS&nbsp;水木清华站&nbsp;(Sat&nbsp;Apr&nbsp;29&nbsp;17:28:40&nbsp;2000)&nbsp;<BR>&nbsp;<BR><A HREF="http://www.linuxforum.net/cgi-bin/perl/showpost.pl?Board=chinese&">http://www.linuxforum.net/cgi-bin/perl/showpost.pl?Board=chinese&</A>&nbsp;<BR>Number=769&amp;page=2&amp;view=expanded&amp;sb=5&nbsp;<BR>&nbsp;<BR>Subject&nbsp;<BR>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;汉字编码标准与识别(四)汉字编码识别&nbsp;<BR>&nbsp;<BR>Posted&nbsp;by&nbsp;<BR>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;shuyong&nbsp;<BR>Posted&nbsp;on&nbsp;<BR>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;4/16/2000&nbsp;9:22&nbsp;PM&nbsp;<BR>&nbsp;<BR>&nbsp;<BR>汉字编码标准与识别(四)&nbsp;<BR>&nbsp;<BR>汉字编码识别&nbsp;<BR>&nbsp;<BR>&nbsp;<BR>因为历史和地域原因,汉字有不少编码标准。最常见的是GB2312和BIG5。&nbsp;<BR>在Unicode被完全接受前,他们将共存相当长的一段时间。因此在实际应&nbsp;<BR>用中有必要把它们区分显示。这就是编码识别。&nbsp;<BR>现在在Windows平台下有不少软件可以识别和同屏显示GB2312和BIG5字符&nbsp;<BR>串,已相当准确。但因为其中蕴藏着不小的商机,这些算法都不公开。&nbsp;<BR>现在只见两种算法:&nbsp;<BR>1)算法1&nbsp;<A HREF="http://www.mandarintools.com">http://www.mandarintools.com</A>&nbsp;<BR>2)算法2&nbsp;<A HREF="http://202.38.128.58/~yumj/www/chrecog.html">http://202.38.128.58/~yumj/www/chrecog.html</A>&nbsp;<BR>具体的原理可以看发明人的主页。因为这两种算法是通过大量的文章统计&nbsp;<BR>出来的,而实际应用是一行行的识别。所以有必要对短句和词组的有效性&nbsp;<BR>进行验证。这里用了一个取巧的方法,分析对常用词组的识别率。因为句&nbsp;<BR>子大多由这些有意义的词组组成。因为两岸不但编码不同,习惯用语也不&nbsp;<BR>同。所以分别收集了GB词组1.3MB,BIG5词组900KB。通过对比发现一些有&nbsp;<BR>趣的事情。&nbsp;<BR>1)算法1占用内存大些,速度慢些,但识别率高些,并且稳定.误差为8.6%,&nbsp;<BR>算法2正好相反,误差为17.6%。综合两者可以提高一些识别率。&nbsp;<BR>&nbsp;<BR>两种算法的识别率&nbsp;<BR>算法1&nbsp;算法2&nbsp;综合&nbsp;<BR>GB文件&nbsp;5%&nbsp;2.6%&nbsp;0.7%&nbsp;<BR>BIG5文件&nbsp;3.6%&nbsp;15%&nbsp;5%&nbsp;<BR>&nbsp;<BR>2)算法2提到的平均值184的阙值确实存在。但最好的算法不是作者所说的&nbsp;<BR>第二字节算法。而是第一字节和第二字节相加的算法。用三种算法分析GB&nbsp;<BR>词组,都呈正态分布:第一字节算法峰值在195,坡度陡峭,说明平均值集&nbsp;<BR>中。第二字节算法峰值在207,坡度平缓,说明平均值分散。双字节相加算&nbsp;<BR>法介于两者之间。&nbsp;<BR>分析BIG5词组:&nbsp;<BR>第一字节算法有峰值174,但坡度平缓得多。&nbsp;<BR>第二字节算法有峰值160左右,更平缓,呈矩形分布,也就是BIG5常用词组&nbsp;<BR>的第二字节的编码范围分布比较均匀。&nbsp;<BR>双字节相加算法是两者的迭加。&nbsp;<BR>所以较好的算法是:&nbsp;<BR>flag&nbsp;=&nbsp;(a&nbsp;*&nbsp;c1&nbsp;+&nbsp;c2)&nbsp;/&nbsp;(a&nbsp;+&nbsp;1)&nbsp;(a&nbsp;=&nbsp;5&nbsp;~&nbsp;7为佳)&nbsp;<BR>以184为界,GB词组有5%的词的平均值小于184,BIG5词组有15%的词的平均&nbsp;<BR>值大于184,综合误差为17.6%。也就是说,对于GB码的字符串,算法2不易&nbsp;<BR>错判,对于BIG5码的字符串则相反。如果是GB文件转换为BIG5码,误差要低&nbsp;<BR>些,为15%,好象是GB码的编码和用字比较集中些.&nbsp;<BR>3)算法1识别率提高的可能&nbsp;<BR>GB2312标准的汉字有6763个,BIG5还要多些。而算法1只取600个字进行加&nbsp;<BR>权,似乎少了些。加权系数从1~600规则排列,似乎不能反映字频变化的规&nbsp;<BR>律。对于GB2312,按常用的2:8的规律,应选1200字左右;按小学教学大纲,&nbsp;<BR>小学毕业识字2500字;按小学教学经验,识字900个左右,基本可以读书,&nbsp;<BR>看报,写作文。因此,这加权范围应该在900~1000字左右。但选哪些字,字&nbsp;<BR>频多少,应该是我们的语言文字专家发言的时候了。&nbsp;<BR>4)新的可能算法&nbsp;<BR>两岸汉字编码不同,常用语也不同,那么常用词组也不同。因此从常用词&nbsp;<BR>组分析差别更大,识别率也就更高。可惜没有资料,因此现在只有设想,&nbsp;<BR>没有算法。同时希望更多的人本着GPL大集市的精神,提供更多更好的算法。&nbsp;<BR>&nbsp;<BR>※&nbsp;来源:·BBS&nbsp;水木清华站&nbsp;smth.org·[FROM:&nbsp;162.105.11.130]&nbsp;<BR><CENTER><H1>BBS水木清华站∶精华区</H1></CENTER></BODY></HTML>

⌨️ 快捷键说明

复制代码 Ctrl + C
搜索代码 Ctrl + F
全屏模式 F11
切换主题 Ctrl + Shift + D
显示快捷键 ?
增大字号 Ctrl + =
减小字号 Ctrl + -