⭐ 欢迎来到虫虫下载站! | 📦 资源下载 📁 资源专辑 ℹ️ 关于我们
⭐ 虫虫下载站

📄 00000002.htm

📁 一份很好的linux入门资料
💻 HTM
字号:
<HTML><HEAD>  <TITLE>BBS水木清华站∶精华区</TITLE></HEAD><BODY><CENTER><H1>BBS水木清华站∶精华区</H1></CENTER>发信人:&nbsp;yanglc&nbsp;(魂归燕园~~别理我,烦着呢),&nbsp;信区:&nbsp;Linux&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;<BR>标&nbsp;&nbsp;题:&nbsp;汉字编码标准与识别(三)&nbsp;<BR>发信站:&nbsp;BBS&nbsp;水木清华站&nbsp;(Sat&nbsp;Apr&nbsp;29&nbsp;17:27:31&nbsp;2000)&nbsp;<BR>&nbsp;<BR><A HREF="http://www.linuxforum.net/cgi-bin/perl/showpost.pl?Board=chinese&">http://www.linuxforum.net/cgi-bin/perl/showpost.pl?Board=chinese&</A>&nbsp;<BR>Number=768&amp;page=2&amp;view=expanded&amp;sb=5&nbsp;<BR>&nbsp;<BR>Subject&nbsp;<BR>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;汉字编码标准与识别(三)内码转换表的来源与&nbsp;<BR>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;制作&nbsp;<BR>&nbsp;<BR>Posted&nbsp;by&nbsp;<BR>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;shuyong&nbsp;<BR>Posted&nbsp;on&nbsp;<BR>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;4/16/2000&nbsp;9:21&nbsp;PM&nbsp;<BR>&nbsp;<BR>&nbsp;<BR>汉字编码标准与识别(三)&nbsp;<BR>&nbsp;<BR>内码转换表的来源与制作&nbsp;<BR>&nbsp;<BR>&nbsp;<BR>由于历史和地域的原因,电脑里的中文标准有不少种共存于Internet&nbsp;<BR>中。这是现实。因此出现了内码转换。这方面的程序现在有不少。不&nbsp;<BR>过大多是MS&nbsp;Windows的版本,并且有的毛病不少,所以有必要制作一&nbsp;<BR>个完整些的内码转换表。&nbsp;<BR>&nbsp;<BR>资料来源&nbsp;<BR>自从Unicode/ISO10646/GB13000标准出现后,这项工作变得简单和繁&nbsp;<BR>琐。因此制作转换表时有一个准则:以国际和国家标准为基准,参考&nbsp;<BR>有影响的商业公司的转换表,个人和小软件次之。下面是资料的来源:&nbsp;<BR>一)国际和国家标准组织&nbsp;<BR>国际标准组织Unicode(<A HREF="http://www.unicode.org)提供了">http://www.unicode.org)提供了</A>&nbsp;<BR>GB&lt;=&gt;Unicode转换表:&nbsp;<BR><A HREF="ftp://ftp.unicode.org/Public/MAPPINGS/EASTASIA/GB">ftp://ftp.unicode.org/Public/MAPPINGS/EASTASIA/GB</A>&nbsp;<BR>BIG5&lt;=&gt;Unicode转换表:&nbsp;<BR><A HREF="ftp://ftp.unicode.org/Public/MAPPINGS/EASTASIA/OTHER">ftp://ftp.unicode.org/Public/MAPPINGS/EASTASIA/OTHER</A>&nbsp;<BR>JIS&lt;=&gt;Unicode转换表:&nbsp;<BR><A HREF="ftp://ftp.unicode.org/Public/MAPPINGS/EASTASIA/JIS">ftp://ftp.unicode.org/Public/MAPPINGS/EASTASIA/JIS</A>&nbsp;<BR>KSC&lt;=&gt;Unicode转换表:&nbsp;<BR><A HREF="ftp://ftp.unicode.org/Public/MAPPINGS/EASTASIA/KSC">ftp://ftp.unicode.org/Public/MAPPINGS/EASTASIA/KSC</A>&nbsp;<BR>因为GBK不是国家标准,所以Unicode并没有提供GBK&lt;=&gt;Unicode的转换&nbsp;<BR>表,而只是采用了Microsoft的code&nbsp;page的一个版本:&nbsp;<BR><A HREF="ftp://ftp.unicode.org/Public/MAPPINGS/VENDORS/MICSFT/">ftp://ftp.unicode.org/Public/MAPPINGS/VENDORS/MICSFT/</A>&nbsp;<BR>WINDOWS/CP{936,950}.TXT&nbsp;<BR>中国国家标准网入门太难,须8000元/个人。因此没有得到正式的&nbsp;<BR>GB2312-1980和GB13000-1993的标准。&nbsp;<BR>二)商业公司&nbsp;<BR>2.1方正集团字体部&nbsp;<BR><A HREF="http://www.founderpku.com/fontweb/">http://www.founderpku.com/fontweb/</A>&nbsp;<BR>因为方正是产,学,研的综合体,在排版和字体领域奋斗多年,有很&nbsp;<BR>特殊的地位。他们提供的转换表,几乎可以等同国家标准。&nbsp;<BR>GB2312标准:&nbsp;<BR><A HREF="http://www.founderpku.com/fontweb/gb2312.htm">http://www.founderpku.com/fontweb/gb2312.htm</A>&nbsp;<BR>GBK标准:&nbsp;<BR><A HREF="http://www.founderpku.com/fontweb/gbk.htm">http://www.founderpku.com/fontweb/gbk.htm</A>&nbsp;<BR>GB&lt;=&gt;BIG5转换表:&nbsp;<BR><A HREF="http://www.founderpku.com/fontweb/download/Gb-big5.tab">http://www.founderpku.com/fontweb/download/Gb-big5.tab</A>&nbsp;<BR>GBK&lt;=&gt;BIG5转换表:&nbsp;<BR><A HREF="http://www.founderpku.com/fontweb/download/Gbk-big5.tab">http://www.founderpku.com/fontweb/download/Gbk-big5.tab</A>&nbsp;<BR>2.2Microsoft&nbsp;<BR><A HREF="http://www.microsoft.com/">http://www.microsoft.com/</A>&nbsp;<BR>Microsoft是谁也忽略不了的。有时候就算是他们错了,最后也是对&nbsp;<BR>的。在有些英文资料里把GBK说成是Microsoft制订的。Microsoft从&nbsp;<BR>商业角度出发,提供的是code&nbsp;pages:&nbsp;<BR>GBK字形表:&nbsp;<BR><A HREF="http://www.microsoft.com/typography/unicode/936gif.zip">http://www.microsoft.com/typography/unicode/936gif.zip</A>&nbsp;<BR>GBK&lt;=&gt;Unicode转换表:&nbsp;<BR><A HREF="http://www.microsoft.com/typography/unicode/936.txt">http://www.microsoft.com/typography/unicode/936.txt</A>&nbsp;<BR>BIG5字形表:&nbsp;<BR><A HREF="http://www.microsoft.com/typography/unicode/950gif.zip">http://www.microsoft.com/typography/unicode/950gif.zip</A>&nbsp;<BR>BIG5&lt;=&gt;Unicode转换表:&nbsp;<BR><A HREF="http://www.microsoft.com/typography/unicode/950.txt">http://www.microsoft.com/typography/unicode/950.txt</A>&nbsp;<BR>在Windows97/98中文版里也提供了些资料:&nbsp;<BR>GBK标准:\windows\GBK.txt&nbsp;<BR>code&nbsp;pages:\windows\system\cp{932,936,949,950}.nls&nbsp;<BR>三)个人与共享软件&nbsp;<BR>有不少个人和小团体也在这方面进行了探索。&nbsp;<BR>3.1&nbsp;TextPro&nbsp;<A HREF="http://person.zj.cninfo.net/~buddha">http://person.zj.cninfo.net/~buddha</A>&nbsp;<BR>因为他们特殊的需求,TextPro确实在BIG5=&gt;GBK/GB转换方面有独到之&nbsp;<BR>处。同时还有个GBK(繁体)=&gt;GB(简体)转换表,很有特色。因为繁体=&gt;&nbsp;<BR>简体是多对一的映射,因此很难有简体=&gt;繁体的转换表。特别是基于字&nbsp;<BR>到字的映射的转换是不可能的。目前已有人进行基于词典和上下文的词&nbsp;<BR>到词的映射。有兴趣可以看&nbsp;<BR><A HREF="http://www.basistech.com/articles/c2c.html">http://www.basistech.com/articles/c2c.html</A>&nbsp;<BR>3.2&nbsp;Stone&nbsp;Chi&nbsp;<A HREF="http://stonec.yeah.net">http://stonec.yeah.net</A>&nbsp;<BR>提供了基于RichWin的内码转换表。收集了不少的资料,对内码标准&nbsp;<BR>有较深的了解。同时还有一个中文检索软件值得一尝。&nbsp;<BR>3.3&nbsp;NJStar&nbsp;<A HREF="http://www.njstar.com">http://www.njstar.com</A>&nbsp;和&nbsp;<BR>MagicWin&nbsp;<A HREF="http://www.magicwin.com.my">http://www.magicwin.com.my</A>&nbsp;<BR>他们在这领域有些日子了。不过转换表不是很全。&nbsp;<BR>&nbsp;<BR>制作&nbsp;<BR>根据上面的准则和排列次序制作。如果上一级有空白,就要下一级填&nbsp;<BR>补;如果有冲突,就以上一级的为准。&nbsp;<BR>一)根据Unicode的GB&lt;=&gt;Unicode与BIG5&lt;=&gt;Unicode转换表制作GB&lt;=&gt;BIG5&nbsp;<BR>转换表。&nbsp;<BR>二)根据Microsoft的GBK&lt;=&gt;Unicode与BIG5&lt;=&gt;Unicode转换表制作&nbsp;<BR>GBK&lt;=&gt;BIG5转换表。&nbsp;<BR>至此,基于标准的转换实际已经完成。Unicode的特点就是一字一码,一&nbsp;<BR>码一字。各个国家和地区的汉字标准已编入Unicode的,并有相同的Unicode&nbsp;<BR>码的汉字,就是叫CJK认同汉字。但有些汉字因为种种原因而未能得到认&nbsp;<BR>同,如果制作这些汉字的转换表,只能是基于实用的,有可能多对多映射&nbsp;<BR>的转换表。&nbsp;<BR>三)使用方正的GBK&lt;=&gt;BIG5转换表填充(一)的GB&lt;=&gt;BIG5转换表。&nbsp;<BR>四)使用Microsoft的GBK&lt;=&gt;BIG5转换表填充(三)的GBK&lt;=&gt;BIG5转换表。&nbsp;<BR>五)使用TextPro和stonec的GBK&lt;=&gt;BIG5转换表填充(四)的GBK&lt;=&gt;BIG5转&nbsp;<BR>换表。&nbsp;<BR>六)NJStar的转换表虽然不是很全,但在BIG5=&gt;GBK转换表中的C6行后半&nbsp;<BR>段和C7,C8行却相当完整。上面的转换表在这里不是空白就是很少转换。&nbsp;<BR>可能这个区域是属于扩充符号&nbsp;<BR>区,可有可无。为保险起见,使用NJStar填充这个区域。&nbsp;<BR>七)校验。通过电脑对码表进行校验,发现在汉字编码方面基本一致。&nbsp;<BR>有冲突的地方基本上是对制表符的理解不同造成的。&nbsp;<BR>八)目测校验。也就是用肉眼一个字一个字的检查。这是最重要的一步。&nbsp;<BR>但因为学识和精力有限,未能做到这一步。&nbsp;<BR>&nbsp;<BR>※&nbsp;来源:·BBS&nbsp;水木清华站&nbsp;smth.org·[FROM:&nbsp;162.105.11.130]&nbsp;<BR><CENTER><H1>BBS水木清华站∶精华区</H1></CENTER></BODY></HTML>

⌨️ 快捷键说明

复制代码 Ctrl + C
搜索代码 Ctrl + F
全屏模式 F11
切换主题 Ctrl + Shift + D
显示快捷键 ?
增大字号 Ctrl + =
减小字号 Ctrl + -