⭐ 欢迎来到虫虫下载站! | 📦 资源下载 📁 资源专辑 ℹ️ 关于我们
⭐ 虫虫下载站

📄 00000001.htm

📁 一份很好的linux入门资料
💻 HTM
字号:
<HTML><HEAD>  <TITLE>BBS水木清华站∶精华区</TITLE></HEAD><BODY><CENTER><H1>BBS水木清华站∶精华区</H1></CENTER>发信人:&nbsp;yanglc&nbsp;(魂归燕园~~别理我,烦着呢),&nbsp;信区:&nbsp;Linux&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;<BR>标&nbsp;&nbsp;题:&nbsp;汉字编码标准与识别(一)&nbsp;<BR>发信站:&nbsp;BBS&nbsp;水木清华站&nbsp;(Sat&nbsp;Apr&nbsp;29&nbsp;17:19:05&nbsp;2000)&nbsp;<BR>&nbsp;<BR><A HREF="http://www.linuxforum.net/cgi-bin/perl/showpost.pl?Board=chinese&">http://www.linuxforum.net/cgi-bin/perl/showpost.pl?Board=chinese&</A>&nbsp;<BR>Number=766&amp;page=2&amp;view=expanded&amp;sb=5&nbsp;<BR>&nbsp;<BR>Subject&nbsp;<BR>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;汉字编码标准与识别(一)代码页(Code&nbsp;Page)初识&nbsp;<BR>&nbsp;<BR>Posted&nbsp;by&nbsp;<BR>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;shuyong&nbsp;<BR>Posted&nbsp;on&nbsp;<BR>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;4/16/2000&nbsp;9:05&nbsp;PM&nbsp;<BR>&nbsp;<BR>&nbsp;<BR>汉字编码标准与识别(一)&nbsp;<BR>&nbsp;<BR>代码页(Code&nbsp;Page)初识&nbsp;<BR>&nbsp;<BR>&nbsp;<BR>本节是根据以下文章编写出来的,建议认真研读这些专家的高论。&nbsp;<BR>参考1&nbsp;&lt;&gt;&nbsp;张&nbsp;轴&nbsp;材&nbsp;&nbsp;<BR>&lt;&lt;计算机世界&gt;&gt;周报&nbsp;97-1-17&nbsp;<BR>参考2&nbsp;&lt;&lt;张轴材&nbsp;谈汉字交换码标准建立历程&gt;&gt;&nbsp;&lt;&lt;计算机世界&gt;&gt;周&nbsp;<BR>报记者&nbsp;黄伟敏&nbsp;肖春江&nbsp;99-8-30&nbsp;<BR>参考3&nbsp;&lt;&lt;中文平台把住“根”留住&gt;&gt;&nbsp;吴健&nbsp;&lt;&lt;中国计算机报&gt;&gt;&nbsp;<BR>出版日期:1998-12-21 总期号:348 本年期号:51&nbsp;<BR>参考4&nbsp;&lt;&lt;为种种UNIX中文平台号脉&gt;&gt;&nbsp;孙玉芳&nbsp;&lt;&lt;中国计算机用户&gt;&gt;&nbsp;<BR>出版日期:1998-07-06 总期号:323 本年期号:26&nbsp;<BR>参考5&nbsp;CJK.INF:<A HREF="ftp://ftp.ora.com/pub/examples/nutshell/ujip/">ftp://ftp.ora.com/pub/examples/nutshell/ujip/</A>&nbsp;<BR>doc/cjk.inf&nbsp;<BR>&nbsp;<BR>因为本人只是业余水平,不是专家,对于参考资料中许多术语还不&nbsp;<BR>理解,更没有见过任何一种标准的正式文本,错误和模糊之处再所&nbsp;<BR>难免。同时,因为国家有关部门对于宣传,推广和贯彻国家标准方&nbsp;<BR>面力度不够,致使象我这样的初学者或初涉该领域的小企业因信息&nbsp;<BR>资源不足而处于不利的竞争地位。&nbsp;<BR>ASCII制订的时候,并没有考虑对多语种,特别是对象中国汉字这样&nbsp;<BR>的象形文字的支持。为此后来又提出了不少解决方案,其中代码页&nbsp;<BR>体系(ISO2022)是现在普遍实行的方案,而ISO10646/GB13000/Unicode&nbsp;<BR>是今后发展的方向。&nbsp;<BR>中国的汉字编码标准GB2312是7bits标准,具体说是双7位字节标准。&nbsp;<BR>而ASCII是单7位字节标准,计算机怎么区分呢?一种是在第八位置&quot;1&quot;,&nbsp;<BR>提示计算机转入双字节编码,这是最常见的一种实现,也叫EUC&nbsp;<BR>(Extended&nbsp;Unix&nbsp;Code)编码.另一种是用特殊标记提示计算机转入双&nbsp;<BR>字节编码,如HZ编码就是用开始,用结束的块标识双字节编码区.它们&nbsp;<BR>都是GB2312的一种实现.对象中国汉字这样的象形文字体系,代码页&nbsp;<BR>是根据各个国家,地区或行业标准,按照EUC方式编码。代码页向下&nbsp;<BR>兼容ASCII,是一种不等长编码。会带来代码的复杂性,同时还会引&nbsp;<BR>起因代码页切换而带来的乱码问题。&nbsp;<BR>Unicode是一种多字节等长编码。ISO10646/GB13000/Unicode现已在&nbsp;<BR>UCS2上实现一致,也就是已实现双字节编码标准。下面所讨论的&nbsp;<BR>ISO10646/GB13000/Unicode,就只是指UCS2这种情况。Unicode对&nbsp;<BR>ASCII采取前面加&quot;0&quot;字节的策略实现等长兼容。如&quot;A&quot;的ASCII码为0x41,&nbsp;<BR>Unicode码就为0x00,0x41。&nbsp;<BR>这里主要从国家标准(GB)系列入手了解Unicode。如果不是看了参考5&nbsp;<BR>(英文),我还不知道国家关于汉字编码的标准如此之多。中国人居然&nbsp;<BR>要从英文资料里了解汉字编码标准,实在是很无奈的事情。&nbsp;<BR>常用中文编码标准&nbsp;资料来源:CJK.INF&nbsp;<BR>GB2312-1980(GB0)(简体)&nbsp;GB7589-1987(GB2)(简体)&nbsp;<BR>GB7590-1987(GB4)(简体)&nbsp;GB13000-1993&nbsp;<BR>GB6345.1-1986(GB0修正)&nbsp;<BR>GB8565.2-1988(GB8,GB0扩充)&nbsp;<BR>GB/T12345-90(GB1)(繁体)&nbsp;GB/T13131-9X(GB3)(繁体)&nbsp;<BR>GB/T13132-9X(GB5)(繁体)&nbsp;<BR>&nbsp;<BR>&nbsp;<BR>其中横向表示字符集系列。纵向表示各个系列的发展标准。其中&nbsp;<BR>GB2312是基本集,也就是目前最常用的标准。GB7589/GB7590是扩展&nbsp;<BR>集,使用时可能不能和GB2312共存,需要切换使用。GB7589/GB7590&nbsp;<BR>是按部件(部首)和笔顺(笔画)排列,但具体有什么字,怎么排列,&nbsp;<BR>用在什么领域,不清楚。GB2312系列经过两次修正和扩充,已和原&nbsp;<BR>始的GB2312-1980标准有些不同(参考5)。因为没有标准文本,不知&nbsp;<BR>道正在使用的字体是属于哪个标准。根据最新的Unicode3.0,国家&nbsp;<BR>标准最新的是GB16500-95&nbsp;,更不知是哪个系列的了。ISO/IEC&nbsp;10646&nbsp;<BR>等同于GB13000-1993/JIS0221-1995/KSC5000-1995这些国家标准。&nbsp;<BR>制订的目标是包容各语种的文字,其中以汉字最多(Unicode2.0有&nbsp;<BR>20902个汉字)。关于标准的特点可以看参考1,制订过程中的风风&nbsp;<BR>雨雨,可以看参考2。总之,这是一个我们国家参与并占主导地位&nbsp;<BR>的国际标准。&nbsp;<BR>GBK是GB2312向GB13000过渡的一个中间产物。它是GB2312的一次大&nbsp;<BR>的扩展,编码向下兼容GB2312的EUC编码,字汇(字符集)和GB13000&nbsp;<BR>相同,是GB2312的3倍。所以说GBK也包含BIG5,Shift-JIS,KSC的&nbsp;<BR>字汇。注意只是包含字汇,而编码与原始的标准是不同的。在具体&nbsp;<BR>应用中,用GBK字体就可以同时显示GB2312,BIG5,Shift-JIS,KSC&nbsp;<BR>的字符串。但除了GB2312字符串,其它都要转换(convert)。&nbsp;<BR>因为语焉不详,不清楚制订GBK时是谁占主导地位。因为有些英文资&nbsp;<BR>料说是Microsoft制订了GBK,而国家方面也没有进行说明。目前从&nbsp;<BR>这些参考资料只知道,94年ISO/IEC&nbsp;10646发布后,Microsoft开发&nbsp;<BR>Windows95中文版,要制订中文扩展编码。96年《汉字扩展内码规范》&nbsp;<BR>GBK发布(参考1~3)。按标准发布比制定晚一年推算,这是95年的事。&nbsp;<BR>Windows95及后续版本中文版支持GBK。&nbsp;<BR>GB2312的EUC编码范围是第一字节0xA1~0xFE(实际只用到0xF7),第&nbsp;<BR>二字节0xA1~0xFE。GBK对此进行扩展。第一字节为0x81~0xFE,第二&nbsp;<BR>字节分两部分,一是0x40~0x7E,二是0x80~0xFE。其中和GB2312相&nbsp;<BR>同的区域,字完全相同。扩展部分大概是按部件(部首)和笔顺(笔画)&nbsp;<BR>从GB13000中取出再排列入GBK中。因此GBK并不是GB13000,虽然两者&nbsp;<BR>字汇相同,但编码体系不同。一个是ISO2022系列不等长编码,一个&nbsp;<BR>是等长编码,并且编码区域也不同。注意到GBK实际上不是国家标准。&nbsp;<BR>在此之前有一个GB2312基本集,在它之上是一个技术更先进的GB13000。&nbsp;<BR>GBK只是一种过渡和扩展规范。所以在Unicode里有GB2312-&gt;Unicode,&nbsp;<BR>GB12345-&gt;Unicode的转换表格,而没有GBK-&gt;Unicode转换表格。只有&nbsp;<BR>Microsoft制作的Code&nbsp;Page&nbsp;936(CP936.TXT)可以算作GBK-&gt;Unicode&nbsp;<BR>转换表格。但要注意这是一个商业公司制作的文件,而不是国家或&nbsp;<BR>国际标准组织制作的,有可能与标准有不一致的地方。最近在方正字&nbsp;<BR>体网站发现一些有用的标准文件,有兴趣可以下载看看.但要注意&nbsp;<BR>Gbk-big5.tab和Gb-big5.tab这两个文件有点瑕疵.&nbsp;<BR><A HREF="http://www.founderpku.com/fontweb/download/Gbk-big5.tab">http://www.founderpku.com/fontweb/download/Gbk-big5.tab</A>&nbsp;<BR><A HREF="http://www.founderpku.com/fontweb/download/Gb-big5.tab">http://www.founderpku.com/fontweb/download/Gb-big5.tab</A>&nbsp;<BR><A HREF="http://www.founderpku.com/fontweb/gb2312.htm">http://www.founderpku.com/fontweb/gb2312.htm</A>&nbsp;<BR><A HREF="http://www.founderpku.com/fontweb/gbk.htm">http://www.founderpku.com/fontweb/gbk.htm</A>&nbsp;<BR>在使用这些转换表制作其它标准的相互转换表,会和传统的转换表&nbsp;<BR>有所不同。如用GBK&lt;=&gt;Unicode&lt;=&gt;BIG5制作GBK&lt;=&gt;BIG5转换表,就&nbsp;<BR>会和传统的GB&lt;=&gt;BIG5转换表有所不同。主要是汉字有简体和繁体。&nbsp;<BR>前者是GBK(中的繁体字)&lt;=&gt;BIG5(繁体字),后者是GB(简体)&lt;=&gt;BIG5(繁体)。&nbsp;<BR>还有就是对一些制表符选用不同。对汉字繁简转换有兴趣的读者,可以看&nbsp;<BR><A HREF="http://www.basistech.com/articles/c2c.html">http://www.basistech.com/articles/c2c.html</A>&nbsp;<BR><A HREF="http://www.cjk.org">http://www.cjk.org</A>&nbsp;<BR>&nbsp;<BR>※&nbsp;来源:·BBS&nbsp;水木清华站&nbsp;smth.org·[FROM:&nbsp;162.105.11.130]&nbsp;<BR><CENTER><H1>BBS水木清华站∶精华区</H1></CENTER></BODY></HTML>

⌨️ 快捷键说明

复制代码 Ctrl + C
搜索代码 Ctrl + F
全屏模式 F11
切换主题 Ctrl + Shift + D
显示快捷键 ?
增大字号 Ctrl + =
减小字号 Ctrl + -