📄 第二章中文文本分类的关键技术.htm

📁 中文分类的关键技术
💻 HTM
📖 第 1 页 / 共 5 页
字号:
}
</STYLE>
<!--[if gte mso 10]>
<style>
 /* Style Definitions */
 table.MsoNormalTable
	{mso-style-name:普通表格;
	mso-tstyle-rowband-size:0;
	mso-tstyle-colband-size:0;
	mso-style-noshow:yes;
	mso-style-parent:"";
	mso-padding-alt:0cm 5.4pt 0cm 5.4pt;
	mso-para-margin:0cm;
	mso-para-margin-bottom:.0001pt;
	mso-pagination:widow-orphan;
	font-size:10.0pt;
	font-family:"Times New Roman";
	mso-ansi-language:#0400;
	mso-fareast-language:#0400;
	mso-bidi-language:#0400;}
</style>
<![endif]--><!--[if gte mso 9]><xml>
 <o:shapedefaults v:ext="edit" spidmax="2050"/>
</xml><![endif]--><!--[if gte mso 9]><xml>
 <o:shapelayout v:ext="edit">
  <o:idmap v:ext="edit" data="1"/>
 </o:shapelayout></xml><![endif]--></HEAD>
<BODY lang=ZH-CN style="TEXT-JUSTIFY-TRIM: punctuation; tab-interval: 21.0pt">
<DIV class=Section1 style="LAYOUT-GRID:  15.6pt none">
<H1 
style="MARGIN-LEFT: 0cm; TEXT-INDENT: 0cm; mso-list: none; tab-stops: 21.0pt"><A 
name=_Toc122844528><SPAN 
style="FONT-SIZE: 18pt; LINE-HEIGHT: 240%; FONT-FAMILY: 黑体">第二章 
中文文本分类的关键技术</SPAN></A><SPAN lang=EN-US 
style="FONT-SIZE: 18pt; LINE-HEIGHT: 240%; FONT-FAMILY: 黑体"><o:p></o:p></SPAN></H1>
<H2><A name=_Toc122844529></A><A name=_Toc118729802></A><A 
name=_Toc117686904><SPAN style="mso-bookmark: _Toc118729802"><SPAN 
style="mso-bookmark: _Toc122844529"><SPAN 
style="FONT-WEIGHT: normal; FONT-SIZE: 14pt; LINE-HEIGHT: 173%; FONT-FAMILY: 黑体; mso-ascii-font-family: 宋体; mso-hansi-font-family: 宋体; mso-bidi-font-weight: bold">§</SPAN></SPAN></SPAN></A><SPAN 
style="mso-bookmark: _Toc117686904"><SPAN 
style="mso-bookmark: _Toc118729802"><SPAN 
style="mso-bookmark: _Toc122844529"><SPAN lang=EN-US 
style="FONT-SIZE: 14pt; LINE-HEIGHT: 173%; FONT-FAMILY: 宋体; mso-bidi-font-size: 16.0pt">2.1</SPAN></SPAN></SPAN></SPAN><SPAN 
style="mso-bookmark: _Toc117686904"><SPAN 
style="mso-bookmark: _Toc118729802"><SPAN 
style="mso-bookmark: _Toc122844529"><SPAN 
style="FONT-SIZE: 14pt; LINE-HEIGHT: 173%; FONT-FAMILY: 宋体; mso-bidi-font-size: 16.0pt">中文词的切分技术</SPAN></SPAN></SPAN></SPAN><SPAN 
lang=EN-US 
style="FONT-SIZE: 14pt; LINE-HEIGHT: 173%; FONT-FAMILY: 宋体; mso-bidi-font-size: 16.0pt"><o:p></o:p></SPAN></H2>
<P class=MsoNormal 
style="TEXT-INDENT: 24pt; LINE-HEIGHT: 20pt; TEXT-ALIGN: left; mso-char-indent-count: 2.0; mso-line-height-rule: exactly; mso-layout-grid-align: none" 
align=left><SPAN 
style="FONT-SIZE: 12pt; FONT-FAMILY: 宋体">中文文本与西文文本不同，西文的书面形式以空格作为词与词之间的分隔，</SPAN><SPAN 
style="FONT-SIZE: 12pt; FONT-FAMILY: 宋体; mso-bidi-font-size: 25.0pt; mso-font-kerning: 0pt; mso-hansi-font-family: 'Times New Roman'">而汉语是一种没有明显的形态界限可以作为分词依据的表意语言，因而在中文文本</SPAN><SPAN 
style="FONT-SIZE: 12pt; FONT-FAMILY: 宋体; mso-bidi-font-size: 26.0pt; mso-font-kerning: 0pt; mso-hansi-font-family: 'Times New Roman'">的处理中面临的第一个问题就是词切分问题。自动分词是中文文本信息处理的第一步。在自动文本分类技术中，基于字频的分类方法在实际使用中较为少见，大多数分类方法都是基于词的，而一些基于自然语言理解的方法也必须首先对文本进行分词。</SPAN><SPAN 
style="FONT-SIZE: 12pt; FONT-FAMILY: 宋体">而且，由于中文特有的书写形式、灵活多变的构词方式以及对句子采取不同的分词形式可能产生完全不同的含义，对中文文本的自动切分比较困难。通常</SPAN><SPAN 
style="FONT-SIZE: 12pt; FONT-FAMILY: 宋体; mso-font-kerning: 0pt">我们理解句子的含义却一般都要借助词汇，因此从目前来看要表示文本文档必须要获得文档中的词汇。目前，对汉语的分词技术主要有三种方法：形式分词方法、语法分词方法、和语义分词方法。<SPAN 
lang=EN-US><o:p></o:p></SPAN></SPAN></P>
<P class=MsoNormal 
style="TEXT-INDENT: 21.85pt; LINE-HEIGHT: 20pt; mso-char-indent-count: 1.82; mso-line-height-rule: exactly"><SPAN 
style="FONT-SIZE: 12pt; FONT-FAMILY: 宋体; mso-font-kerning: 0pt">形式分词方法：所谓形式分词不是直接进行语法、语义分析，而只是借助于分词词典，基于一些统计信息进行分词的一种方法。基本上可分为两种途径：<SPAN 
lang=EN-US><o:p></o:p></SPAN></SPAN></P>
<P class=MsoNormal 
style="MARGIN-LEFT: 27pt; TEXT-INDENT: -5.25pt; LINE-HEIGHT: 20pt; mso-list: l0 level1 lfo2; tab-stops: list 27.0pt; mso-line-height-rule: exactly"><![if !supportLists]><SPAN 
lang=EN-US 
style="FONT-SIZE: 12pt; FONT-FAMILY: 宋体; mso-font-kerning: 0pt; mso-bidi-font-family: 宋体"><SPAN 
style="mso-list: Ignore">1）<SPAN style="FONT: 7pt 'Times New Roman'">&nbsp; 
</SPAN></SPAN></SPAN><![endif]><SPAN 
style="FONT-SIZE: 12pt; FONT-FAMILY: 宋体; mso-font-kerning: 0pt">词典匹配法：词典匹配法的基本思想是事先建立一个词库，其中包含所有可能出现的词。对给定的待分词的汉字串，按照某种确定的原则切取其子串，若该子串与词库中的某词条相匹配，则该子串是词，继续分割剩余的部分，直到剩余部分为空；否则，该子串不是词，转上重新切取其子串进行匹配。<SPAN 
lang=EN-US><o:p></o:p></SPAN></SPAN></P>
<P class=MsoNormal 
style="MARGIN-LEFT: 27pt; TEXT-INDENT: -5.25pt; LINE-HEIGHT: 20pt; mso-list: l0 level1 lfo2; tab-stops: list 18.0pt; mso-line-height-rule: exactly"><![if !supportLists]><SPAN 
lang=EN-US 
style="FONT-SIZE: 12pt; FONT-FAMILY: 宋体; mso-font-kerning: 0pt; mso-bidi-font-family: 宋体"><SPAN 
style="mso-list: Ignore">2）<SPAN style="FONT: 7pt 'Times New Roman'">&nbsp; 
</SPAN></SPAN></SPAN><![endif]><SPAN 
style="FONT-SIZE: 12pt; FONT-FAMILY: 宋体; mso-font-kerning: 0pt">停用词法：停用词法的基本思想是事先建立一个停用词库，其中包含各种具有切分划分语句的词。对给定的汉字串，首先根据停用词将其分割成若干个较短的子串，然后对每个子串分别采用词典匹配法进行切分。该方法实际是对词典匹配法的一种改进。<SPAN 
lang=EN-US><o:p></o:p></SPAN></SPAN></P>
<P class=MsoBodyTextIndent 
style="LINE-HEIGHT: 20pt; mso-line-height-rule: exactly">语法分词方法：所谓语法分词方法指对文章进行语法分析后，根据一定的语法规则对句子进行分词的一种分词方法。</P>
<P class=MsoNormal 
style="TEXT-INDENT: 24pt; LINE-HEIGHT: 20pt; mso-char-indent-count: 2.0; mso-line-height-rule: exactly"><SPAN 
style="FONT-SIZE: 12pt; FONT-FAMILY: 宋体; mso-font-kerning: 0pt">首先需要建立一套汉语语法规则，该规则不但给出成分的结构，而且还给出它的子成分之间必须满足的约束条件。另外，还需要建立一个词库，其中包含所有可能出现的词和他们的各种可能的词类。为了加快分析速度，一般将整个语法规则库分成若干个子库。每个子库中的规则实际上就是一个产生式加上一个关于该产生式各分量的约束条件。约束条件可实现成布尔函数。<SPAN 
lang=EN-US><o:p></o:p></SPAN></SPAN></P>
<P class=MsoBodyTextIndent 
style="LINE-HEIGHT: 20pt; mso-line-height-rule: exactly">基本过程是：对给定的待分词的汉语句子，按照某种确定的原则切取其子串，若该子串与词库中的某词条匹配，则从词库中取出该词的所有词类，然后根据语法规则进行语法分析（包括语法分析书的构造和约束条件的检查等等，这里不但要使用该词的所有词类，而且还要使用前面已分析部分的结果）。若分析正确，则该子串是词，即下语法分析的结果作为后继切分的基础，继续分割剩余的部分，直到剩余部分为空；否则，该子串不是词，转上重新切取子串进行匹配。</P>
<P class=MsoNormal 
style="TEXT-INDENT: 24pt; LINE-HEIGHT: 20pt; mso-char-indent-count: 2.0; mso-line-height-rule: exactly"><SPAN 
style="FONT-SIZE: 12pt; FONT-FAMILY: 宋体; mso-font-kerning: 0pt">语法规则的形成是自然语言形成的结果，是用计算机分析和处理自然语言的前提和基础。事实上，正是为了实现自然语言的形式化而建立了形式语言理论。另一方面，在用形式语言理论来描述和处理自然语言的过程中所遇到的各种问题又不断地促使新理论的提出和完善。但是，目前为描述和处理自然语言而提出的形式语法规则还不能完全覆盖丰富多彩的自然语言现象。因此语法分析法的应用将不可避免有其局限性。另外，语法分析法要求保存分析时产生的所有中间结果，它的空间开销也很大。<SPAN 
lang=EN-US><o:p></o:p></SPAN></SPAN></P>
<P class=MsoNormal 
style="TEXT-INDENT: 24pt; LINE-HEIGHT: 20pt; mso-char-indent-count: 2.0; mso-line-height-rule: exactly"><SPAN 
style="FONT-SIZE: 12pt; FONT-FAMILY: 宋体; mso-font-kerning: 0pt">语义分词方法：语义分词方法是具有“理解”成分的切分法。它与语法分析法的关系是：后者是前者的基础。<SPAN 
lang=EN-US><o:p></o:p></SPAN></SPAN></P>
<P class=MsoNormal 
style="TEXT-INDENT: 24pt; LINE-HEIGHT: 20pt; mso-char-indent-count: 2.0; mso-line-height-rule: exactly"><SPAN 
style="FONT-SIZE: 12pt; FONT-FAMILY: 宋体; mso-font-kerning: 0pt">语义分词方法的基本思想是：事先建立一个词库，其中包含所有可能出现的词和它们的各种语义信息。对给定的待分词的汉语句子，按照某种确定的原则切取其子串，若该子串与词库中的某词条相匹配，则从词库中取出该词的所有语义信息，然后调用语义分析程序进行语义分析。若分析正确，则该子串是词，即下语法分析的结果作为后继切分的基础，继续分割剩余的部分，直到剩余部分为空；否则，该子串不是词，转上重新切取子串进行匹配。<SPAN 
lang=EN-US><o:p></o:p></SPAN></SPAN></P>
<P class=MsoNormal 
style="TEXT-INDENT: 24pt; LINE-HEIGHT: 20pt; mso-char-indent-count: 2.0; mso-line-height-rule: exactly"><SPAN 
style="FONT-SIZE: 12pt; FONT-FAMILY: 宋体; mso-font-kerning: 0pt">常见的表示方法有基于各语法的语义框架法、语义网络法、概念结构法、功能描述法等。<SPAN 
lang=EN-US><o:p></o:p></SPAN></SPAN></P>
<P class=MsoNormal 
style="TEXT-INDENT: 24pt; LINE-HEIGHT: 20pt; mso-char-indent-count: 2.0; mso-line-height-rule: exactly"><SPAN 
style="FONT-SIZE: 12pt; FONT-FAMILY: 宋体; mso-font-kerning: 0pt">语义分析结果的形成由对应的语义分析程序来负责，词库中需记录那些语义信息以及它们的表示形式，这些问题都根据语义分析程序的需要来确定。由于语义分词方法的最终结果包括分析结果的内部表示，所以它为后继的处理提供了一个很高的起点。但是，为了有效地实现语义分词方法，还有许多理论问题需要研究。并且，即使采用语义分词方法也不能解决所有的歧义切分问题。<SPAN 
lang=EN-US><o:p></o:p></SPAN></SPAN></P>
<P class=MsoBodyTextIndent 
style="LINE-HEIGHT: 20pt; mso-line-height-rule: exactly">实际上，任何分词方法都不可避免出现歧义性，比较而言，语法、语义分析方法较繁琐，形式分词方法则具有简单实用的优点，得到广泛的应用。</P>
<P class=MsoNormal 
style="MARGIN-LEFT: 21.75pt; LINE-HEIGHT: 20pt; mso-line-height-rule: exactly"><SPAN 
style="FONT-SIZE: 12pt; FONT-FAMILY: 宋体; mso-font-kerning: 0pt">在传统的文献检索中通常采用词（<SPAN 
lang=EN-US>words </SPAN>）或者<SPAN lang=EN-US>n-grams </SPAN>（<SPAN 
lang=EN-US>N-</SPAN>元长度为<SPAN lang=EN-US>n<o:p></o:p></SPAN></SPAN></P>
<P class=MsoNormal 
style="LINE-HEIGHT: 20pt; TEXT-ALIGN: left; mso-line-height-rule: exactly; mso-layout-grid-align: none" 
align=left><SPAN 
style="FONT-SIZE: 12pt; FONT-FAMILY: 宋体; mso-font-kerning: 0pt">的有序单词集合）法来做中文句子的切分（<SPAN 
lang=EN-US>Segmentation </SPAN>），词的切分需要自动分词技术，<SPAN 
lang=EN-US>n-grams</SPAN></SPAN><SUP><SPAN lang=EN-US 
style="FONT-SIZE: 12pt; mso-bidi-font-size: 7.0pt; mso-font-kerning: 0pt">[25]</SPAN></SUP><SPAN 
style="FONT-SIZE: 12pt; FONT-FAMILY: 宋体; mso-font-kerning: 0pt">法优点在于不需要语言学领域的知识，这是中文和其他亚洲语言使用它的主要原因。<SPAN 
lang=EN-US>n-grams</SPAN>的做法是简单地把字符串切分成固定长度的单元，一般我们使用一元（<SPAN 
lang=EN-US>uni-grams </SPAN>）或者二元（<SPAN lang=EN-US>bi-grams</SPAN>） 
法。例如我们把“文本挖掘”按一元法切分为“文”、“本”、“挖”、“掘”四个单元，或者按二元法切分为“文本”、“挖掘”两个单元。据统计研究发现中文中平均的词汇长度为<SPAN 
lang=EN-US>1.59</SPAN>， 因此二元法能成功地覆盖绝大多数的中文词汇。可以看出<SPAN 
lang=EN-US>n-grams</SPAN>法比较机械，而另一种方法即自动分词，它需要语言学领域的知识支持，例如需要一部词典，它是由手工创建的，并且存储尽可能多的已知词汇，需要词汇构成的启发式规则，需要对一些同时出现的汉字的统计数字。自动分词和<SPAN 
lang=EN-US>n-grams</SPAN>各有自己的优缺点，有人通过实验证明把二者结合起来效果会好一些。<SPAN 
lang=EN-US><o:p></o:p></SPAN></SPAN></P>
<P class=MsoNormal 
style="TEXT-INDENT: 24pt; LINE-HEIGHT: 20pt; TEXT-ALIGN: left; mso-char-indent-count: 2.0; mso-line-height-rule: exactly; mso-layout-grid-align: none" 
align=left><SPAN 
style="FONT-SIZE: 12pt; FONT-FAMILY: 宋体; mso-font-kerning: 0pt">我国对自动分词的相关研究已进行了十几年，清华大学计算机系、北京大学计算语言学研究所和山西大学计算机系等都有接近实用的实验系统，它们的切分准确率一般可以超过<SPAN 
lang=EN-US>90% </SPAN>。</SPAN></P>
<H2><SPAN lang=EN-US 
style="FONT-SIZE: 14pt; LINE-HEIGHT: 173%; FONT-FAMILY: 宋体; mso-bidi-font-size: 16.0pt"><SPAN 
style="mso-spacerun: yes">&nbsp;</SPAN></SPAN><A name=_Toc122844530></A><A 
name=_Toc118729803></A><A name=_Toc117686905><SPAN 
style="mso-bookmark: _Toc118729803"><SPAN 
style="mso-bookmark: _Toc122844530"><SPAN 
style="FONT-WEIGHT: normal; FONT-SIZE: 14pt; LINE-HEIGHT: 173%; FONT-FAMILY: 黑体; mso-ascii-font-family: 宋体; mso-hansi-font-family: 宋体; mso-bidi-font-weight: bold">§</SPAN></SPAN></SPAN></A><SPAN 
style="mso-bookmark: _Toc117686905"><SPAN 
style="mso-bookmark: _Toc118729803"><SPAN 
style="mso-bookmark: _Toc122844530"><SPAN lang=EN-US 
style="FONT-SIZE: 14pt; LINE-HEIGHT: 173%; FONT-FAMILY: 宋体; mso-bidi-font-size: 16.0pt">2.2</SPAN></SPAN></SPAN></SPAN><SPAN 
style="mso-bookmark: _Toc117686905"><SPAN 
style="mso-bookmark: _Toc118729803"><SPAN 
style="mso-bookmark: _Toc122844530"><SPAN 
style="FONT-SIZE: 14pt; LINE-HEIGHT: 173%; FONT-FAMILY: 宋体; mso-bidi-font-size: 16.0pt">文本特征的表示</SPAN></SPAN></SPAN></SPAN><SPAN 
lang=EN-US 
style="FONT-SIZE: 14pt; LINE-HEIGHT: 173%; FONT-FAMILY: 宋体; mso-bidi-font-size: 16.0pt"><o:p></o:p></SPAN></H2>
<P class=MsoBodyTextIndent3 
style="TEXT-INDENT: 24pt; mso-char-indent-count: 2.0"><SPAN
💿 文件大小 18 K
👤 上传用户 shsy22
📂 所属分类多国语言处理
📄 代码行数 759 行
💻 语言类型 HTM
🏷️ 相关标签

#分类 #关键技术
更多分类资源 →
⌨️ 快捷键说明

复制代码 Ctrl + C
搜索代码 Ctrl + F
全屏模式 F11
切换主题 Ctrl + Shift + D
显示快捷键 ?
增大字号 Ctrl + =
减小字号 Ctrl + -
📄 第二章 中文文本分类的关键技术.htm

⌨️ 快捷键说明

📄 第二章中文文本分类的关键技术.htm