📄 第二章中文文本分类的关键技术.htm

📁 中文分类的关键技术
💻 HTM
📖 第 1 页 / 共 5 页
字号:
style="FONT-FAMILY: 宋体; mso-ascii-font-family: 'Times New Roman'; mso-hansi-font-family: 'Times New Roman'">由于对文本进行深层次理解的技术还不完善，因此，人们在对文本集进行分类时，常常采取这样的策略：先用一个高度概括的向量来表示一篇文本，将文本集概括成一个向量集，这个向量集等同于一个二维表格，然后通过对文本集对应的向量集进行相关的分析，达到对文本集进行自动分类的目的。</SPAN></P>
<P class=MsoNormal 
style="TEXT-INDENT: 24pt; LINE-HEIGHT: 20pt; mso-char-indent-count: 2.0; mso-line-height-rule: exactly"><SPAN 
style="FONT-SIZE: 12pt; FONT-FAMILY: 宋体">大规模文本处理的对象是大量的真实文本，要使得计算机能够高效率、高性能的处理自然文本，就必须找到一种理想的文本表示方法。文本表示最理想的境界就是模拟人所理解的语义，通过函数<SPAN 
lang=EN-US>f</SPAN>，使得：人们所理解的语义<SPAN lang=EN-US>=f</SPAN>（文本）<SPAN 
lang=EN-US><o:p></o:p></SPAN></SPAN></P>
<P class=MsoBodyText 
style="LINE-HEIGHT: 20pt; mso-line-height-rule: exactly">一旦找到了合适的函数来表示人所理解的语义，那么整个问题就变得简单了。对文本分类的过程就可以转化为一个搜索问题，即寻找和新文本函数值差异最小的文本类。</P>
<P class=MsoNormal 
style="TEXT-INDENT: 24pt; LINE-HEIGHT: 20pt; mso-char-indent-count: 2.0; mso-line-height-rule: exactly"><SPAN 
style="FONT-SIZE: 12pt; FONT-FAMILY: 宋体">但不幸的是，这种精确反映人所理解语义的函数是很难定义的，或者极端一点说，也许根本就不存在。对于形式语言而言，语义还可以通过机器状态的改变来描述，我们也正是通过这种方式来学习和掌握机器语言的；可是对于自然语言而言，由于涉及到人这个认知主体的思维活动，不同的认知主体往往会有不同的理解，自然语言的形式及其意义之间是一种多对多的关系，很难合理地定义一个反映语义的函数。<SPAN 
lang=EN-US><o:p></o:p></SPAN></SPAN></P>
<P class=MsoNormal 
style="LINE-HEIGHT: 20pt; mso-line-height-rule: exactly"><SPAN lang=EN-US 
style="FONT-SIZE: 12pt; FONT-FAMILY: 宋体"><SPAN 
style="mso-tab-count: 1">&nbsp;&nbsp;&nbsp; </SPAN></SPAN><SPAN 
style="FONT-SIZE: 12pt; FONT-FAMILY: 宋体">既然这种寻求精确反映人所理解语义的道路是不可行的，那么我们只好退而求其次，寻求一种能够量化、能够形式化、最终可以计算和操作的表示方法。一种可行的方案就是走统计路线，研究从大规模语料库中发现出来的统计规律，利用文本在特征集合上的分布来近似表示语义。<SPAN 
lang=EN-US><o:p></o:p></SPAN></SPAN></P>
<P class=MsoNormal 
style="TEXT-INDENT: 24pt; LINE-HEIGHT: 20pt; mso-char-indent-count: 2.0; mso-line-height-rule: exactly"><SPAN 
style="FONT-SIZE: 12pt; FONT-FAMILY: 宋体">现在描述文本最常用的方法就是用文本的特征项及其在文本中的权重来表示。求文本特征项及其权重的方法有很多，常用的有布尔逻辑模型、概率逻辑模型、向量空间模型等。<SPAN 
lang=EN-US><o:p></o:p></SPAN></SPAN></P>
<H3><A name=_Toc122844531></A><A name=_Toc118729804></A><A 
name=_Toc117686906><SPAN style="mso-bookmark: _Toc118729804"><SPAN 
style="mso-bookmark: _Toc122844531"><SPAN 
style="FONT-WEIGHT: normal; FONT-SIZE: 12pt; LINE-HEIGHT: 173%; FONT-FAMILY: 宋体; mso-bidi-font-size: 16.0pt; mso-bidi-font-weight: bold">§</SPAN></SPAN></SPAN></A><st1:chsdate 
w:st="on" IsROCDate="False" IsLunarDate="False" Day="30" Month="12" 
Year="1899"><SPAN style="mso-bookmark: _Toc122844531"><SPAN 
style="mso-bookmark: _Toc118729804"><SPAN 
style="mso-bookmark: _Toc117686906"><SPAN lang=EN-US 
style="FONT-SIZE: 12pt; LINE-HEIGHT: 173%; FONT-FAMILY: 宋体; mso-bidi-font-size: 16.0pt">2.2.1</SPAN></SPAN></SPAN></SPAN></st1:chsdate><SPAN 
style="mso-bookmark: _Toc122844531"><SPAN 
style="mso-bookmark: _Toc118729804"><SPAN 
style="mso-bookmark: _Toc117686906"><SPAN lang=EN-US 
style="FONT-SIZE: 12pt; LINE-HEIGHT: 173%; FONT-FAMILY: 宋体; mso-bidi-font-size: 16.0pt"> 
</SPAN></SPAN></SPAN></SPAN><SPAN style="mso-bookmark: _Toc122844531"><SPAN 
style="mso-bookmark: _Toc118729804"><SPAN 
style="mso-bookmark: _Toc117686906"><SPAN 
style="FONT-SIZE: 12pt; LINE-HEIGHT: 173%; FONT-FAMILY: 宋体; mso-bidi-font-size: 16.0pt">布尔模型（<SPAN 
lang=EN-US>Boolean Model</SPAN>）</SPAN></SPAN></SPAN></SPAN><SPAN lang=EN-US 
style="FONT-SIZE: 12pt; LINE-HEIGHT: 173%; FONT-FAMILY: 宋体; mso-bidi-font-size: 16.0pt"><o:p></o:p></SPAN></H3>
<P class=MsoNormal 
style="TEXT-INDENT: 24.1pt; LINE-HEIGHT: 20pt; mso-line-height-rule: exactly"><SPAN 
style="FONT-SIZE: 12pt; FONT-FAMILY: 宋体">布尔模型</SPAN><SUP><SPAN lang=EN-US 
style="FONT-SIZE: 12pt">[26]</SPAN></SUP><SPAN 
style="FONT-SIZE: 12pt; FONT-FAMILY: 宋体">就是采用布尔表达式对文本进行标识。布尔模型在传统的信息检索中有广泛的应用，它是最简单的检索模型，也是其他检索模型的基础。它是一种简单的严格匹配模型（</SPAN><SPAN 
lang=EN-US style="FONT-SIZE: 12pt">Exact Match Model</SPAN><SPAN 
style="FONT-SIZE: 12pt; FONT-FAMILY: 宋体">）<SPAN 
lang=EN-US>,</SPAN>它定义了一个二值变量集合来表示文本：<SPAN 
lang=EN-US><o:p></o:p></SPAN></SPAN></P>
<P class=MsoNormal style="TEXT-ALIGN: left; mso-layout-grid-align: none" 
align=left><SPAN 
style="FONT-FAMILY: 仿宋_GB2312; mso-bidi-font-size: 10.5pt; mso-font-kerning: 0pt">　<SPAN 
lang=EN-US><SUB><!--[if gte vml 1]><v:shapetype id=_x0000_t75 coordsize = 
"21600,21600" o:preferrelative = "t" o:spt = "75" filled = "f" stroked = "f" 
path = " m@4@5 l@4@11@9@11@9@5 xe"> <v:stroke joinstyle = 
"miter"></v:stroke><v:formulas><v:f eqn = 
"if lineDrawn pixelLineWidth 0 "></v:f><v:f eqn = "sum @0 1 0 "></v:f><v:f eqn = 
"sum 0 0 @1 "></v:f><v:f eqn = "prod @2 1 2 "></v:f><v:f eqn = 
"prod @3 21600 pixelWidth "></v:f><v:f eqn = 
"prod @3 21600 pixelHeight "></v:f><v:f eqn = "sum @0 0 1 "></v:f><v:f eqn = 
"prod @6 1 2 "></v:f><v:f eqn = "prod @7 21600 pixelWidth "></v:f><v:f eqn = 
"sum @8 21600 0 "></v:f><v:f eqn = "prod @7 21600 pixelHeight "></v:f><v:f eqn = 
"sum @10 21600 0 "></v:f></v:formulas><v:path o:extrusionok = "f" 
gradientshapeok = "t" o:connecttype = "rect"></v:path><o:lock aspectratio="t" 
v:ext="edit"></o:lock></v:shapetype><v:shape id=_x0000_i1025 
style="WIDTH: 149.25pt; HEIGHT: 18pt" o:ole="" type = "#_x0000_t75" coordsize = 
"21600,21600"><v:imagedata o:title="" src = 
"第二章%20中文文本分类的关键技术.files/image001.wmz"></v:imagedata></v:shape><![endif]--><![if !vml]><img width=199 height=24
src="第二章%20中文文本分类的关键技术.files/image002.gif" v:shapes="_x0000_i1025"><![endif]></SUB><!--[if gte mso 9]><xml>
 <o:OLEObject Type="Embed" ProgID="Equation.3" ShapeID="_x0000_i1025"
  DrawAspect="Content" ObjectID="_1205238698">
 </o:OLEObject>
</xml><![endif]--></SPAN></SPAN><SPAN lang=EN-US 
style="FONT-SIZE: 10pt; mso-fareast-font-family: 仿宋_GB2312; mso-font-kerning: 0pt"><o:p></o:p></SPAN></P>
<P class=MsoNormal style="TEXT-ALIGN: left; mso-layout-grid-align: none" 
align=left><SPAN 
style="FONT-SIZE: 12pt; FONT-FAMILY: 宋体; mso-bidi-font-size: 10.5pt; mso-font-kerning: 0pt; mso-hansi-font-family: 'Times New Roman'">其中<SPAN 
lang=EN-US><o:p></o:p></SPAN></SPAN></P>
<P class=MsoNormal style="TEXT-ALIGN: left; mso-layout-grid-align: none" 
align=left><SPAN lang=EN-US 
style="FONT-SIZE: 12pt; FONT-FAMILY: 宋体; mso-bidi-font-size: 10.5pt; mso-font-kerning: 0pt; mso-hansi-font-family: 'Times New Roman'"><SUB><!--[if gte vml 1]><v:shape 
id=_x0000_i1026 style="WIDTH: 167.25pt; HEIGHT: 36pt" o:ole="" type = 
"#_x0000_t75" coordsize = "21600,21600"><v:imagedata o:title="" src = 
"第二章%20中文文本分类的关键技术.files/image003.wmz"></v:imagedata></v:shape><![endif]--><![if !vml]><img width=223 height=48
src="第二章%20中文文本分类的关键技术.files/image004.gif" v:shapes="_x0000_i1026"><![endif]></SUB><!--[if gte mso 9]><xml>
 <o:OLEObject Type="Embed" ProgID="Equation.3" ShapeID="_x0000_i1026"
  DrawAspect="Content" ObjectID="_1205238700">
 </o:OLEObject>
</xml><![endif]--><o:p></o:p></SPAN></P>
<P class=MsoNormal 
style="TEXT-INDENT: 21pt; LINE-HEIGHT: 20pt; TEXT-ALIGN: left; mso-line-height-rule: exactly; mso-layout-grid-align: none" 
align=left><SPAN 
style="FONT-SIZE: 12pt; FONT-FAMILY: 宋体; mso-bidi-font-size: 10.5pt; mso-font-kerning: 0pt">布尔模型实现简单</SPAN><SPAN 
lang=EN-US 
style="FONT-SIZE: 12pt; FONT-FAMILY: 宋体; mso-bidi-font-size: 10.0pt; mso-font-kerning: 0pt">,</SPAN><SPAN 
style="FONT-SIZE: 12pt; FONT-FAMILY: 宋体; mso-bidi-font-size: 10.5pt; mso-font-kerning: 0pt">其优点是速度快。但布尔模型忽略了元数据的文档项频率</SPAN><SPAN 
lang=EN-US 
style="FONT-SIZE: 12pt; FONT-FAMILY: 宋体; mso-bidi-font-size: 10.0pt; mso-font-kerning: 0pt">,</SPAN><SPAN 
style="FONT-SIZE: 12pt; FONT-FAMILY: 宋体; mso-bidi-font-size: 10.5pt; mso-font-kerning: 0pt">所以无法在匹配结果集中进行相关性大小排序。且逻辑表达式过于严格</SPAN><SPAN 
lang=EN-US 
style="FONT-SIZE: 12pt; FONT-FAMILY: 宋体; mso-bidi-font-size: 10.0pt; mso-font-kerning: 0pt">,</SPAN><SPAN 
style="FONT-SIZE: 12pt; FONT-FAMILY: 宋体; mso-bidi-font-size: 10.5pt; mso-font-kerning: 0pt">往往会因为一个条件未满足而忽略了其他全部特征项，造成重要特征大量的遗漏。<SPAN 
lang=EN-US><o:p></o:p></SPAN></SPAN></P>
<H3><A name=_Toc122844532></A><A name=_Toc118729805></A><A 
name=_Toc117686907><SPAN style="mso-bookmark: _Toc118729805"><SPAN 
style="mso-bookmark: _Toc122844532"><SPAN 
style="FONT-WEIGHT: normal; FONT-SIZE: 12pt; LINE-HEIGHT: 173%; FONT-FAMILY: 宋体; mso-bidi-font-size: 16.0pt; mso-bidi-font-weight: bold">§</SPAN></SPAN></SPAN></A><st1:chsdate 
w:st="on" IsROCDate="False" IsLunarDate="False" Day="30" Month="12" 
Year="1899"><SPAN style="mso-bookmark: _Toc122844532"><SPAN 
style="mso-bookmark: _Toc118729805"><SPAN 
style="mso-bookmark: _Toc117686907"><SPAN lang=EN-US 
style="FONT-SIZE: 12pt; LINE-HEIGHT: 173%; FONT-FAMILY: 宋体; mso-bidi-font-size: 16.0pt">2.2.2</SPAN></SPAN></SPAN></SPAN></st1:chsdate><SPAN 
style="mso-bookmark: _Toc122844532"><SPAN 
style="mso-bookmark: _Toc118729805"><SPAN 
style="mso-bookmark: _Toc117686907"><SPAN lang=EN-US 
style="FONT-SIZE: 12pt; LINE-HEIGHT: 173%; FONT-FAMILY: 宋体; mso-bidi-font-size: 16.0pt"> 
</SPAN></SPAN></SPAN></SPAN><SPAN style="mso-bookmark: _Toc122844532"><SPAN 
style="mso-bookmark: _Toc118729805"><SPAN 
style="mso-bookmark: _Toc117686907"><SPAN 
style="FONT-SIZE: 12pt; LINE-HEIGHT: 173%; FONT-FAMILY: 宋体; mso-bidi-font-size: 16.0pt">概率模型（<SPAN 
lang=EN-US>Probabilistic Model</SPAN>）</SPAN></SPAN></SPAN></SPAN><SPAN 
lang=EN-US 
style="FONT-SIZE: 12pt; LINE-HEIGHT: 173%; FONT-FAMILY: 宋体; mso-bidi-font-size: 16.0pt"><o:p></o:p></SPAN></H3>
<P class=MsoNormal 
style="LINE-HEIGHT: 20pt; TEXT-ALIGN: left; mso-line-height-rule: exactly; mso-layout-grid-align: none" 
align=left><SPAN lang=EN-US style="FONT-SIZE: 12pt; FONT-FAMILY: 宋体"><SPAN 
style="mso-tab-count: 1">&nbsp;&nbsp;&nbsp; </SPAN></SPAN><SPAN 
style="FONT-SIZE: 12pt; FONT-FAMILY: 宋体">概率模型</SPAN><SUP><SPAN lang=EN-US 
style="FONT-SIZE: 12pt">[27]</SPAN></SUP><SPAN 
style="FONT-SIZE: 12pt; FONT-FAMILY: 宋体">考虑词与词的相关性，把文本集中的文本分为相关文本和无关文本。以数学理论中的概率论为原理，通过赋予词某种概率值来表示这些词在相关文本和无关文本出现的概率，然后计算文本间相关的概率，系统据此概率做出决策。<SPAN 
lang=EN-US><o:p></o:p></SPAN></SPAN></P>
<P class=MsoNormal 
style="TEXT-INDENT: 24pt; LINE-HEIGHT: 20pt; TEXT-ALIGN: left; mso-line-height-rule: exactly; mso-layout-grid-align: none" 
align=left><SPAN 
style="FONT-SIZE: 12pt; FONT-FAMILY: 宋体">概率模型有多种形式，常见的一种称之为第二概率模型，其基本思想是：词的概率值一般是对重复若干次相关性计算，每重复一次，就由用户对检出文本进行人工判断。然后利用这种反馈信息，根据每个词在相关文本集合和无关文本集合的分布情况来计算它们的相关概率，在该模型中，词的权值定义为：<SPAN 
lang=EN-US><o:p></o:p></SPAN></SPAN></P>
<P class=MsoNormal 
style="TEXT-INDENT: 24pt; TEXT-ALIGN: left; mso-layout-grid-align: none" 
align=left><SPAN lang=EN-US style="FONT-SIZE: 12pt; FONT-FAMILY: 宋体"><SUB><!--[if gte vml 1]><v:shape 
id=_x0000_i1027 style="WIDTH: 68.25pt; HEIGHT: 33pt" o:ole="" type = 
"#_x0000_t75" coordsize = "21600,21600"><v:imagedata o:title="" src = 
"第二章%20中文文本分类的关键技术.files/image005.wmz"></v:imagedata></v:shape><![endif]--><![if !vml]><img width=91 height=44
src="第二章%20中文文本分类的关键技术.files/image006.gif" v:shapes="_x0000_i1027"><![endif]></SUB><!--[if gte mso 9]><xml>
 <o:OLEObject Type="Embed" ProgID="Equation.3" ShapeID="_x0000_i1027"
  DrawAspect="Content" ObjectID="_1205238701">
 </o:OLEObject>
</xml><![endif]--><o:p></o:p></SPAN></P>
<P class=MsoNormal 
style="TEXT-INDENT: 24.1pt; LINE-HEIGHT: 20pt; TEXT-ALIGN: left; mso-line-height-rule: exactly; mso-layout-grid-align: none" 
align=left><SPAN style="FONT-SIZE: 12pt; FONT-FAMILY: 宋体">其中，<SPAN 
lang=EN-US><SUB><!--[if gte vml 1]><v:shape id=_x0000_i1028
💿 文件大小 18 K
👤 上传用户 shsy22
📂 所属分类多国语言处理
📄 代码行数 759 行
💻 语言类型 HTM
🏷️ 相关标签

#分类 #关键技术
更多分类资源 →
⌨️ 快捷键说明

复制代码 Ctrl + C
搜索代码 Ctrl + F
全屏模式 F11
切换主题 Ctrl + Shift + D
显示快捷键 ?
增大字号 Ctrl + =
减小字号 Ctrl + -
📄 第二章 中文文本分类的关键技术.htm

⌨️ 快捷键说明

📄 第二章中文文本分类的关键技术.htm