00000003.htm

来自「一份很好的linux入门资料」· HTM 代码 · 共 91 行

HTM

91 行

<HTML><HEAD>  <TITLE>BBS水木清华站∶精华区</TITLE></HEAD><BODY><CENTER><H1>BBS水木清华站∶精华区</H1></CENTER>发信人:&nbsp;yanglc&nbsp;(魂归燕园~~别理我，烦着呢),&nbsp;信区:&nbsp;Linux&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;<BR>标&nbsp;&nbsp;题:&nbsp;汉字编码标准与识别(四)&nbsp;<BR>发信站:&nbsp;BBS&nbsp;水木清华站&nbsp;(Sat&nbsp;Apr&nbsp;29&nbsp;17:28:40&nbsp;2000)&nbsp;<BR>&nbsp;<BR><A HREF="http://www.linuxforum.net/cgi-bin/perl/showpost.pl?Board=chinese&">http://www.linuxforum.net/cgi-bin/perl/showpost.pl?Board=chinese&</A>&nbsp;<BR>Number=769&amp;page=2&amp;view=expanded&amp;sb=5&nbsp;<BR>&nbsp;<BR>Subject&nbsp;<BR>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;汉字编码标准与识别(四)汉字编码识别&nbsp;<BR>&nbsp;<BR>Posted&nbsp;by&nbsp;<BR>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;shuyong&nbsp;<BR>Posted&nbsp;on&nbsp;<BR>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;4/16/2000&nbsp;9:22&nbsp;PM&nbsp;<BR>&nbsp;<BR>&nbsp;<BR>汉字编码标准与识别(四)&nbsp;<BR>&nbsp;<BR>汉字编码识别&nbsp;<BR>&nbsp;<BR>&nbsp;<BR>因为历史和地域原因，汉字有不少编码标准。最常见的是GB2312和BIG5。&nbsp;<BR>在Unicode被完全接受前，他们将共存相当长的一段时间。因此在实际应&nbsp;<BR>用中有必要把它们区分显示。这就是编码识别。&nbsp;<BR>现在在Windows平台下有不少软件可以识别和同屏显示GB2312和BIG5字符&nbsp;<BR>串，已相当准确。但因为其中蕴藏着不小的商机，这些算法都不公开。&nbsp;<BR>现在只见两种算法：&nbsp;<BR>1)算法1&nbsp;<A HREF="http://www.mandarintools.com">http://www.mandarintools.com</A>&nbsp;<BR>2)算法2&nbsp;<A HREF="http://202.38.128.58/~yumj/www/chrecog.html">http://202.38.128.58/~yumj/www/chrecog.html</A>&nbsp;<BR>具体的原理可以看发明人的主页。因为这两种算法是通过大量的文章统计&nbsp;<BR>出来的，而实际应用是一行行的识别。所以有必要对短句和词组的有效性&nbsp;<BR>进行验证。这里用了一个取巧的方法，分析对常用词组的识别率。因为句&nbsp;<BR>子大多由这些有意义的词组组成。因为两岸不但编码不同，习惯用语也不&nbsp;<BR>同。所以分别收集了GB词组1.3MB，BIG5词组900KB。通过对比发现一些有&nbsp;<BR>趣的事情。&nbsp;<BR>1)算法1占用内存大些，速度慢些，但识别率高些，并且稳定.误差为8.6%，&nbsp;<BR>算法2正好相反，误差为17.6%。综合两者可以提高一些识别率。&nbsp;<BR>&nbsp;<BR>两种算法的识别率&nbsp;<BR>算法1&nbsp;算法2&nbsp;综合&nbsp;<BR>GB文件&nbsp;5%&nbsp;2.6%&nbsp;0.7%&nbsp;<BR>BIG5文件&nbsp;3.6%&nbsp;15%&nbsp;5%&nbsp;<BR>&nbsp;<BR>2)算法2提到的平均值184的阙值确实存在。但最好的算法不是作者所说的&nbsp;<BR>第二字节算法。而是第一字节和第二字节相加的算法。用三种算法分析GB&nbsp;<BR>词组，都呈正态分布：第一字节算法峰值在195，坡度陡峭，说明平均值集&nbsp;<BR>中。第二字节算法峰值在207，坡度平缓，说明平均值分散。双字节相加算&nbsp;<BR>法介于两者之间。&nbsp;<BR>分析BIG5词组：&nbsp;<BR>第一字节算法有峰值174，但坡度平缓得多。&nbsp;<BR>第二字节算法有峰值160左右，更平缓,呈矩形分布，也就是BIG5常用词组&nbsp;<BR>的第二字节的编码范围分布比较均匀。&nbsp;<BR>双字节相加算法是两者的迭加。&nbsp;<BR>所以较好的算法是：&nbsp;<BR>flag&nbsp;=&nbsp;(a&nbsp;*&nbsp;c1&nbsp;+&nbsp;c2)&nbsp;/&nbsp;(a&nbsp;+&nbsp;1)&nbsp;(a&nbsp;=&nbsp;5&nbsp;~&nbsp;7为佳)&nbsp;<BR>以184为界，GB词组有5%的词的平均值小于184，BIG5词组有15%的词的平均&nbsp;<BR>值大于184，综合误差为17.6%。也就是说，对于GB码的字符串，算法2不易&nbsp;<BR>错判，对于BIG5码的字符串则相反。如果是GB文件转换为BIG5码,误差要低&nbsp;<BR>些,为15%,好象是GB码的编码和用字比较集中些.&nbsp;<BR>3)算法1识别率提高的可能&nbsp;<BR>GB2312标准的汉字有6763个，BIG5还要多些。而算法1只取600个字进行加&nbsp;<BR>权，似乎少了些。加权系数从1~600规则排列，似乎不能反映字频变化的规&nbsp;<BR>律。对于GB2312，按常用的2:8的规律，应选1200字左右；按小学教学大纲，&nbsp;<BR>小学毕业识字2500字；按小学教学经验，识字900个左右，基本可以读书，&nbsp;<BR>看报，写作文。因此，这加权范围应该在900~1000字左右。但选哪些字，字&nbsp;<BR>频多少，应该是我们的语言文字专家发言的时候了。&nbsp;<BR>4)新的可能算法&nbsp;<BR>两岸汉字编码不同，常用语也不同，那么常用词组也不同。因此从常用词&nbsp;<BR>组分析差别更大，识别率也就更高。可惜没有资料，因此现在只有设想，&nbsp;<BR>没有算法。同时希望更多的人本着GPL大集市的精神，提供更多更好的算法。&nbsp;<BR>&nbsp;<BR>※&nbsp;来源:·BBS&nbsp;水木清华站&nbsp;smth.org·[FROM:&nbsp;162.105.11.130]&nbsp;<BR><CENTER><H1>BBS水木清华站∶精华区</H1></CENTER></BODY></HTML>

00000003.htm - 源码说明

本页面展示了「一份很好的linux入门资料」中的 00000003.htm 源码文件，采用 HTM 编程语言编写，共 91 行代码。您可以在线阅读完整代码内容，也可以返回资源详情页下载完整源码包进行本地学习和开发。

虫虫下载站收录了大量与linux相关的技术资源，包括源代码、技术文档、电路图等，是电子工程师和嵌入式开发者的专业学习平台。

⌨️ 快捷键说明

复制代码Ctrl + C

搜索代码Ctrl + F

全屏模式F11

增大字号Ctrl + =

减小字号Ctrl + -

显示快捷键?