⭐ 欢迎来到虫虫下载站! | 📦 资源下载 📁 资源专辑 ℹ️ 关于我们
⭐ 虫虫下载站

📄 中文 xml faq - fanqiang_com.htm

📁 详细的讲述了XML相关知识
💻 HTM
📖 第 1 页 / 共 3 页
字号:
            <BR>16.&nbsp;据说&nbsp;Unicode&nbsp;不是一组好的中文字集&nbsp;(character&nbsp;set)&nbsp;?&nbsp;Chinese!&nbsp; 
            <BR>Unicode&nbsp;定组织&nbsp;(Unicode&nbsp;Consortium)&nbsp;是许多的公司联合决定定一个包含全世界所有文字&nbsp;的巨大字集, 
            <BR>其中也有亚洲的公司参与。例如:Fujitsu&nbsp;and&nbsp;Fuji&nbsp;Xerox&nbsp;公司。&nbsp;该组织取用&nbsp;ISO&nbsp;10646&nbsp;字集然後加 
            <BR>入其他的资讯:标准名称及&nbsp;特性。&nbsp;Unicode&nbsp;包含&nbsp;GB2312&nbsp;中所有的字及(可能)&nbsp;Big5&nbsp;码中所有的字。&nbsp; 
            <BR>而且加入了许多其他语言的文字。(ISO&nbsp;10646&nbsp;有几种编码方式:&nbsp;UTF-8&nbsp;是&nbsp;8-bit&nbsp;的,而&nbsp;UTF-16&nbsp;是&nbsp; 
            <BR>16-bit。&nbsp;Unicode&nbsp;是&nbsp;UTF-16&nbsp;的形式。&nbsp; 
            <BR><BR>因此&nbsp;Unicode&nbsp;比&nbsp;Big5&nbsp;及&nbsp;GB2312&nbsp;码好&nbsp;-&nbsp;因为&nbsp;Unicode&nbsp;包含较多的字。&nbsp; 
            <BR><BR>但是&nbsp;ISO&nbsp;10646&nbsp;码有下列问题:&nbsp; 
            <BR><BR>UTF-16&nbsp;或&nbsp;Unicode&nbsp;是&nbsp;16-bit&nbsp;固定长度的编码,并没有比&nbsp;Big5&nbsp;或&nbsp;GB2312&nbsp;码提供更大的容纳空间。 
            <BR>而&nbsp;8-bit&nbsp;不定长&nbsp;(variable-length)&nbsp;的编码,每个中文字使用&nbsp;3&nbsp;个位元组&nbsp;(byte)。&nbsp;这意味着使用&nbsp; 
            <BR>UTF-8&nbsp;编码的&nbsp;XML&nbsp;档案会比使用&nbsp;Big5&nbsp;码的档案大上&nbsp;50%。但是假如使用&nbsp;ASCII&nbsp;码的标示&nbsp;(Markup), 
            <BR>档案就不会大这麽多了。&nbsp;标示大约会占文件的&nbsp;50%。可能要使档案大小减少的方式就是采用&nbsp;档案压缩了。&nbsp; 
            <BR>ISO&nbsp;10646&nbsp;码中,字的顺序与任何的中文码并不同。无法使用一个&nbsp;简单的演算法&nbsp;(algorithm)&nbsp;就可以 
            <BR>将&nbsp;Big5&nbsp;或&nbsp;GB2312&nbsp;码转换为&nbsp;ISO&nbsp;10646。您得用一个转换表来进行转码。但另一方面,ISO&nbsp;10646&nbsp;码的 
            <BR>中文字序有利於排序&nbsp;(sorting)。而且也去除了重字,因而&nbsp;对於检索&nbsp;(searching)&nbsp;也有帮助。(据说 
            <BR>&nbsp;GBK&nbsp;字集包含&nbsp;ISO&nbsp;10646&nbsp;码中所有的字,而且保留与&nbsp;GB2312&nbsp;码相同的字序。在某些情形下&nbsp;可能是个 
            <BR>&nbsp;好字集。)&nbsp; 
            <BR>这就是为何&nbsp;XML&nbsp;档不一定要用&nbsp;UTF-8&nbsp;或&nbsp;UTF-16&nbsp;编码的原因。&nbsp;您可以使用&nbsp;Big5&nbsp;或&nbsp;GB2312&nbsp;码。但是 
            <BR>很少&nbsp;XML&nbsp;软体工具支援&nbsp;这些中文字码。所以建议您,以长远眼光来探讨,最好是转移到&nbsp;UTF-8&nbsp;或&nbsp;UTF-16。&nbsp; 
            <BR>-------------------------------------------------------------------------------- 
            <BR><BR>17.&nbsp;为何某个软体工具的文件说明该软体无法正确处理&nbsp;Big5&nbsp;码文件,&nbsp;但事实上却可以用呢&nbsp;?&nbsp; 
            <BR>Big5&nbsp;码是一个以&nbsp;"7-bit&nbsp;unsafe"&nbsp;"ASCII-family"&nbsp;编码的字集。&nbsp; 
            <BR><BR>"ASCII-family"&nbsp;编码的字集&nbsp;(ASCII,&nbsp;ISO646,&nbsp;ISO8859-*,&nbsp;UTF-8,&nbsp;EUC,&nbsp;Big5,&nbsp;GB2312)&nbsp;中的&nbsp;ASCII 
            <BR>&nbsp;字部份&nbsp;都在&nbsp;ASCII&nbsp;字集表中的位置上。(也就是&nbsp;'A'&nbsp;的字码为&nbsp;65&nbsp;(0x41)。)&nbsp;所有的&nbsp;ASCII&nbsp;字都 
            <BR>&nbsp;小於&nbsp;128&nbsp;(0x80)。&nbsp; 
            <BR>一个&nbsp;"8-bit&nbsp;safe"&nbsp;编码的字集表示假如其中有一个位元组&nbsp;(byte)&nbsp;的值小於&nbsp;128,那这个字一定是&nbsp; 
            <BR>ASCII&nbsp;中的字。Shift-JIS&nbsp;及&nbsp;Big5&nbsp;码&nbsp;都不是&nbsp;8-bit&nbsp;unsafe,因为在多位元组&nbsp;(multiple-byte)&nbsp;字 
            <BR>码的第二&nbsp;个位元组可能是小於&nbsp;128&nbsp;(0x80)。使用"8-bit&nbsp;safe"&nbsp;编码的好处是可以与&nbsp;一些只处理以&nbsp; 
            <BR>ASCII&nbsp;做为标示&nbsp;(markup)&nbsp;的软体工具相容。&nbsp; 
            <BR>"7-bit&nbsp;safe"&nbsp;编码是:假如有小於&nbsp;64&nbsp;(0x40)&nbsp;的位元组&nbsp;(byte)&nbsp;就表示这是&nbsp;个&nbsp;ASCII&nbsp;码的字。 
            <BR>Shift-JIS&nbsp;及&nbsp;Big5&nbsp;码不是&nbsp;"8-bit&nbsp;safe"&nbsp;(因为&nbsp;字码中的第二个位元组可能小於&nbsp;128&nbsp;(0x80))&nbsp;但这 
            <BR>些字码是&nbsp;"7-bit&nbsp;safe"&nbsp;(因为字码中的第二个位元组一定大於&nbsp;63&nbsp;(0x3f))。"7-bit&nbsp;safe"&nbsp;编码&nbsp;对於 
            <BR>一些只将小於&nbsp;64&nbsp;(0x40)&nbsp;的字认定为分隔符号&nbsp;(&amp;#eter)&nbsp;的软体工具是安全无虑的。在&nbsp;XML&nbsp;中,所有 
            <BR>的&nbsp;XML&nbsp;分隔符号&nbsp;(delimiter)&nbsp;[&lt;&gt;&amp;%"']&nbsp;的值都小於&nbsp;64&nbsp;(0x40)。&nbsp; 
            <BR>这意味着会有许多的&nbsp;XML&nbsp;软体工具可以处理&nbsp;Big5&nbsp;码的文件。但这纯属&nbsp;意外,因为严格来讲,一个不 
            <BR>认得&nbsp;XML&nbsp;标头中的编码属性的&nbsp;XML&nbsp;系统,&nbsp;应该产生错误讯息。特别的是,通常这些系统可能无法处 
            <BR>理数字字元参引&nbsp;(numeric&nbsp;character&nbsp;reference)&nbsp;(请参阅问题&nbsp;10)。当然这些系统虽然&nbsp;不符合标准, 
            <BR>但还是有其用处的。&nbsp; 
            <BR><BR>对於&nbsp;Big5&nbsp;码还有一个特殊的问题要考虑。&nbsp;请参阅问题&nbsp;18.&nbsp; 
            <BR>-------------------------------------------------------------------------------- 
            <BR><BR>18.&nbsp;为何在处理有些&nbsp;Big5&nbsp;码文件时会产生奇特的错误呢&nbsp;?&nbsp; 
            <BR>在某些系统中,Big5&nbsp;码的第二个&nbsp;byte&nbsp;会产生问题。因为&nbsp;Big5&nbsp;码不是&nbsp;"8-bit&nbsp;safe"&nbsp;(请参阅问题&nbsp;17)。&nbsp; 
            <BR><BR>这个问题只会在不将&nbsp;Big5&nbsp;码文件转为&nbsp;"8-bit&nbsp;safe"&nbsp;的内部格式&nbsp;(例如:Unicode,UTF-8&nbsp;或&nbsp;UTF-16)&nbsp; 
            <BR>的系统中发生。在这些系统中,&nbsp;Big5&nbsp;码的某些位元组&nbsp;(byte)&nbsp;会被解译为错误的字。&nbsp; 
            <BR><BR>第一个状况是您使用本地语言&nbsp;(Native&nbsp;Language)&nbsp;的标示&nbsp;(例如:您使用中文做为元素名称&nbsp;(element&nbsp; 
            <BR>names),属性名称&nbsp;(attribute&nbsp;names),ID&nbsp;属性等等)。这个问题无解。如果您一定要用这类的软体, 
            <BR>您&nbsp;就要在标示中避免使用第二个&nbsp;byte&nbsp;有问题的&nbsp;Big5&nbsp;字。&nbsp; 
            <BR><BR>第二个状况是您在&nbsp;CDATA&nbsp;段落&nbsp;(section)&nbsp;中使用下列中文字,而且&nbsp;紧接着&nbsp;"]&gt;"&nbsp;这个字串。解决的方 
            <BR>法是,将这个&nbsp;CDATA&nbsp;段落分割为两个&nbsp;CDATA&nbsp;段落,然後在其间夹杂一个特别的字元。下列&nbsp;Big5&nbsp;中文字 
            <BR>的第二个&nbsp;byte&nbsp;都是&nbsp;0x5D,也就是&nbsp;ASCII&nbsp;中的&nbsp;"]"&nbsp;字元。&nbsp; 
            <BR><BR>也包因氓栅苗孙孙财 <BR>崧淫设弼琶跑愍窟榜蒸稽 <BR>霄瓢馆缧擞魔 <BR><BR>焱菏酡 <BR>螗螬泷 
            <BR>蹰&nbsp; <BR><BR>警告:我们还在检视这些字。&nbsp; 
            <BR>(:假如您不能看到上述的字,请参阅问题&nbsp;19)&nbsp; 
            <BR>-------------------------------------------------------------------------------- 
            <BR><BR>19.&nbsp;为何我不能在&nbsp;HTML&nbsp;浏览器&nbsp;(browser)&nbsp;中看到所有的字呢&nbsp;?&nbsp; 
            <BR>您不能看到所有的字,可能是:&nbsp; 
            <BR><BR>您的浏览器&nbsp;(browser)&nbsp;无法依据&nbsp;HTML&nbsp;4&nbsp;或&nbsp;XML&nbsp;规则正确处理&nbsp;数字字元参引 
            <BR>&nbsp;(numeric&nbsp;character&nbsp;reference);或是&nbsp; 
            <BR>您没有安装或选择正确的字型;&nbsp; 
            <BR>您的浏览器使用&nbsp;"encoding"&nbsp;设定来决定使用那一个字型,但在这个&nbsp;字型中并没有文件中的某 
            <BR>些字的字形。&nbsp; 
            <BR>试着改变浏览器上的功能选项中的&nbsp;"Encoding"&nbsp;项目切换为&nbsp;Big5&nbsp;或&nbsp;UTF-8。&nbsp;这项设定在不同 
            <BR>的浏览器中,会放在不同的位置。&nbsp; 
            <BR>-------------------------------------------------------------------------------- 
            <BR>20.&nbsp;什麽是&nbsp;Big5/GCCS,&nbsp;EUDC&nbsp;及&nbsp;Big5+&nbsp;码&nbsp;?&nbsp; 
            <BR>(1998-12-31)&nbsp; 
            <BR><BR>EUDC&nbsp;(Extended&nbsp;User-defined&nbsp;Characters)&nbsp;是香港地区定的一组&nbsp;标准使用者造字 
            <BR>&nbsp;(user-defined&nbsp;characters)。(日文称为&nbsp;gaiji)?这些字包含&nbsp;R&amp;D&nbsp;EUDC,&nbsp;HKUST&nbsp;EUDC&nbsp;及&nbsp;GCCS&nbsp;EUDC。&nbsp; 
            <BR><BR>Big5&nbsp;码是在台湾定的,这些繁体字也在香港使用。但在香港有些字很少在&nbsp;在台湾使用,因些香港政 
            <BR>府将&nbsp;Big5&nbsp;字集再加上&nbsp;3049&nbsp;个字定为&nbsp;"政府中文字&nbsp;集"&nbsp;(Government&nbsp;Chinese&nbsp;Character&nbsp;Set,&nbsp;GCCS), 
            <BR>目前已广为使用中。&nbsp; 
            <BR><BR>台湾的行政院研究发展考核委员会(研考会)委中文电脑推广基金会(中推会)&nbsp;进行&nbsp;Big5&nbsp;码字集扩编, 
            <BR>约为&nbsp;24,066&nbsp;字,称为&nbsp;Big5+&nbsp;码。&nbsp; 
            <BR><BR>请注意:Big5/GCCS,&nbsp;EUDC&nbsp;及&nbsp;Big5+&nbsp;码并未在&nbsp;IANA&nbsp;册编码名称供&nbsp;在&nbsp;Internet&nbsp;上使用。&nbsp; 
            <BR><BR>为了将来可互通使用&nbsp;(interoperability),请在&nbsp;WWW&nbsp;中的&nbsp;HTML&nbsp;及&nbsp;档中加上正确的标头。假如 
            <BR>您不知道确切的字集,e-commerce&nbsp;就无法正确&nbsp;运作了。假如您使用&nbsp;Big5+&nbsp;码,请在文件的标头 
            <BR>上加上解或处理指令&nbsp;(processing&nbsp;instruction)。在&nbsp;XML&nbsp;中,我们建议在文件的第二个标示&nbsp; 
            <BR>(tag)&nbsp;写上&nbsp;"ascc-hint"&nbsp;的处理指令并使用&nbsp;"non-IANA"&nbsp;属性。 
            <BR>&nbsp;&lt;?xml&nbsp;version="1.0"&nbsp;encoding="Big5"&nbsp;?&gt;&nbsp;&lt;?ascc-hint&nbsp;non-IANA="Big5plus"&nbsp;?&gt;&nbsp;及&nbsp; 
            <BR><BR>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&lt;?xml&nbsp;version="1.0"&nbsp;encoding="Big5"&nbsp;?&gt; 
            <BR>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&lt;?ascc-hint&nbsp;non-IANA="GCCS"&nbsp;?&gt; 
            <BR>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 
            <BR><BR><BR>-------------------------------------------------------------------------------- 
            <BR><BR>那儿可以找到更多的相关资讯&nbsp;?&nbsp; 
            <BR>请参考Chinese&nbsp;XML&nbsp;Now!&nbsp;网页。&nbsp; 
            <BR><BR>"Chinese&nbsp;XML&nbsp;Now!"&nbsp;这个计划的目的是什麽&nbsp;?&nbsp; 
            <BR>这是一个在中央研究院计算中心进行的计划。这个计划的目的是协助&nbsp;XML&nbsp;软体工具发展者测试其软 
            <BR>体是否具有处理中文的能力及&nbsp;提供&nbsp;XML&nbsp;使用者各软体的中文处理能力的资讯。&nbsp;对於不使用中文的 
            <BR>软体发展者不容易在网路上找到相关的资讯。在这个&nbsp;计划草创之初,也少有针对&nbsp;XML&nbsp;的中文资料。&nbsp; 
            <BR><BR><BR>在这个计划中,各项内容将可能以英文及中文&nbsp;(UTF-8,Big5&nbsp;和&nbsp;GB2312&nbsp;码)&nbsp;同步提供资料。&nbsp; 
            <BR><BR>我可以与谁联络关於这份&nbsp;FAQ&nbsp;的相关事宜&nbsp;?&nbsp; 
            <BR>我们竭诚欢迎任何的更正,疑问及建议。英文版请与&nbsp;Rick&nbsp;Jelliffe:&nbsp;ricko@gate.sinica.edu.tw&nbsp; 
            <BR>联络。中文版请与&nbsp;张锦堂:&nbsp;ctchang@gate.sinica.edu.tw联络。&nbsp; 
            <BR><BR><BR>-------------------------------------------------------------------------------- 
            <BR><BR>贡献者&nbsp; 
            <BR>感谢&nbsp;Sidney&nbsp;Lu&nbsp;及&nbsp;Toshinori&nbsp;Numata&nbsp;及&nbsp;John&nbsp;Cowen&nbsp;的更正。&nbsp; 
            <BR><BR><BR>-------------------------------------------------------------------------------- 
            <BR><BR>目录资讯&nbsp;(Cataloging&nbsp;Information,&nbsp;Dublin&nbsp;Core)&nbsp; 
            <BR>&lt;DC:TITLE&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;xml:lang="zh-TW"&gt;Chinese&nbsp;XML&nbsp;常见问题及解答&nbsp;&lt;/DC:TITLE&gt; 
            <BR>&lt;DC:TITLE&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;xml:lang="en"&gt;The&nbsp;Chinese&nbsp;XML&nbsp;FAQ&nbsp;(Chinese&nbsp;version)&lt;/DC:TITLE&gt; 
            <BR>&lt;DC:CREATOR&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&gt;Rick&nbsp;Jelliffe&nbsp;&lt;/DC:CREATOR&gt; 
            <BR>&lt;DC:CONTRIBUTOR&nbsp;xml:lang="zh-TW-Lt"&gt;Chin-Tang&nbsp;Chang&lt;/DC:CONTRIBUTOR&gt; 
            <BR>&lt;DC:CONTRIBUTOR&nbsp;xml:lang="zh-TW"&gt;&nbsp;张锦堂&lt;/DC:CONTRIBUTOR&gt; 
            <BR>&lt;DC:SUBJECT&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;xml:lang="en"&gt;XML,&nbsp;SGML,&nbsp;Chinese,&nbsp;FAQ, 
            <BR>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;Big5,&nbsp;GB2312,&nbsp;Unicode,&nbsp;ISO&nbsp;10646,&nbsp;UTF-8,&nbsp;UTF-16,&nbsp; 
            <BR>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;Apache,&nbsp;Voyager&nbsp;&lt;/DC:SUBJECT&gt; 
            <BR>&lt;DC:DESCRIPTION&nbsp;xml:lang="zh-TW"&gt;关於&nbsp;XML&nbsp;的常见问题及解答&nbsp;&lt;/DC:DESCRIPTION&gt; 
            <BR>&lt;DC:PUBLISHER&nbsp;&nbsp;&nbsp;xml:lang="zh-TW"&gt;台湾中央研究院计算中心&nbsp;&lt;/DC:PUBLISHER&gt; 
            <BR>&lt;DC:TYPE&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;xml:lang="en"&gt;Text.Article&nbsp;&lt;/DC:TYPE&gt; 
            <BR>&lt;DC:DATE&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&gt;1998-12-31&nbsp;&lt;/DC:DATE&gt; 
            <BR>&lt;DC:RIGHTS&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&gt;http://www.ascc.net/xml/en/utf-8/legal.html&nbsp;&lt;/DC:RIGHTS&gt; 
            <BR>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 
            <!-- 正文end --><BR>(http://www.fanqiang.com)<BR></FONT><BR><FONT 
            color=#999999><SMALL></SMALL></FONT><BR></FONT></TD></TR></TBODY></TABLE><BR></TD></TR></TBODY></TABLE>
<TABLE cellSpacing=0 cellPadding=0 width=750 border=0>
  <TBODY>
  <TR>
    <TD align=middle width=620>
      <TABLE cellSpacing=0 cellPadding=0 width=562 border=0>
        <TBODY>
        <TR>
          <TD width=562>
            <TABLE cellSpacing=0 cellPadding=0 width=562 border=0>
              <TBODY>
              <TR>
                <TD></TD></TR>
              <TR>
                <TD height=10></TD></TR></TBODY></TABLE><!--结束:底部-->
            <TABLE width=750 border=0>
              <TBODY>
              <TR>
                <TD width="100%" bgColor=#d09f0d colSpan=5 height=2><IMG 
                  height=1 src="中文 XML FAQ - fanqiang_com.files/c.gif" 
                width=1></TD></TR>
              <TR>
                <TD vAlign=top width="100%" colSpan=5 height=40>
                  <P align=center><FONT color=#ffffff>★&nbsp;&nbsp;樊强制作 
                  欢迎分享&nbsp;&nbsp;★ </FONT></P></TD></TR></TBODY></TABLE>
            <CENTER></CENTER></TR></TBODY></TABLE></TR></TBODY></TABLE></CENTER></BODY></HTML>

⌨️ 快捷键说明

复制代码 Ctrl + C
搜索代码 Ctrl + F
全屏模式 F11
切换主题 Ctrl + Shift + D
显示快捷键 ?
增大字号 Ctrl + =
减小字号 Ctrl + -