📄 音字转换类.html
字号:
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN">
<HTML><HEAD><TITLE></TITLE>
<META http-equiv=Content-Type content="text/html; charset=GB2312">
<META content="MSHTML 6.00.2900.3157" name=GENERATOR></HEAD>
<BODY><SPAN
style="FONT-SIZE: 12pt; FONT-FAMILY: ??; mso-bidi-font-size: 9.0pt; mso-ascii-font-family: 'Times New Roman'; mso-hansi-font-family: 'Times New Roman'; mso-font-kerning: 0pt">
<P class=MsoNormal
style="MARGIN: 0cm 0cm 0pt; TEXT-INDENT: 24pt; mso-char-indent-count: 2.0"><SPAN
style="FONT-SIZE: 12pt; FONT-FAMILY: 宋体; mso-bidi-font-size: 9.0pt; mso-ascii-font-family: 'Times New Roman'; mso-hansi-font-family: 'Times New Roman'; mso-font-kerning: 0pt">为了建立音字转换模型,为每个音转换成每个字提取上下文特征,构成属于该“音</SPAN><SPAN
lang=EN-US
style="FONT-SIZE: 12pt; mso-bidi-font-size: 9.0pt; mso-font-kerning: 0pt">-</SPAN><SPAN
style="FONT-SIZE: 12pt; FONT-FAMILY: 宋体; mso-bidi-font-size: 9.0pt; mso-ascii-font-family: 'Times New Roman'; mso-hansi-font-family: 'Times New Roman'; mso-font-kerning: 0pt">字对”的特征集,其中每个特征有一个相应的权值,也就是我们所求的模型参数。这样,将得到</SPAN><SPAN
lang=EN-US
style="FONT-SIZE: 12pt; mso-bidi-font-size: 9.0pt; mso-font-kerning: 0pt">7</SPAN><SPAN
style="FONT-SIZE: 12pt; FONT-FAMILY: 宋体; mso-bidi-font-size: 9.0pt; mso-ascii-font-family: 'Times New Roman'; mso-hansi-font-family: 'Times New Roman'; mso-font-kerning: 0pt">千多个特征集合,每个集合中可能会有零到上百个特征。采用下图</SPAN><SPAN
style="FONT-SIZE: 12pt; FONT-FAMILY: 宋体; mso-bidi-font-size: 9.0pt; mso-ascii-font-family: 'Times New Roman'; mso-hansi-font-family: 'Times New Roman'; mso-font-kerning: 0pt">的方式组织音字转换过程中提取出的特征。</SPAN><SPAN
lang=EN-US
style="FONT-SIZE: 12pt; mso-bidi-font-size: 9.0pt; mso-font-kerning: 0pt"><?xml:namespace
prefix = o ns = "urn:schemas-microsoft-com:office:office"
/><o:p></o:p></SPAN></P>
<P class=MsoNormal
style="MARGIN: 0cm 0cm 0pt; TEXT-INDENT: 24pt; mso-char-indent-count: 2.0"><SPAN
style="FONT-SIZE: 12pt; FONT-FAMILY: 宋体; mso-bidi-font-size: 9.0pt; mso-ascii-font-family: 'Times New Roman'; mso-hansi-font-family: 'Times New Roman'; mso-font-kerning: 0pt">特征的组织结构由三级表构成。第一级表是特征表,有特征串和音表指针两个字段,音表指针字段指向存储了该音所构成的表。第二级是音表,包括音编号和特征编号指针,其中特征编号指针字段指向属于该“音</SPAN><SPAN
lang=EN-US
style="FONT-SIZE: 12pt; mso-bidi-font-size: 9.0pt; mso-font-kerning: 0pt">-</SPAN><SPAN
style="FONT-SIZE: 12pt; FONT-FAMILY: 宋体; mso-bidi-font-size: 9.0pt; mso-ascii-font-family: 'Times New Roman'; mso-hansi-font-family: 'Times New Roman'; mso-font-kerning: 0pt">字对”的特征集所构成的表。第三级是特征编号表,包括特征编号和出现次数两个字段,其中特征编号表示当前特征串所对应的索引。全部的表都按编号大小顺序存取。特征串表和音表采用红黑树存取。 <BR><BR> <IMG
src="file://C:\Documents and Settings\Administrator\My Documents\CRF帮助文档\ptcFeatureOrg.JPG"
align=baseline><BR><BR>音字转换采用的特征组织方式和前面词性标注所采用的组织方式不同,其原因是汉字是多音字,例如:"会"有两种读音"hui"和"kuai",因此,需要增加一个拼音编号来区分同字不同音的那些特征。如果采用词性标注的特征组织方式,则特征“U00:227:会”会有两种含义,一是当前拼音为"hui",汉字为“会”,前第二个音的编号为227的那个特征;二是当前拼音为"kuai",汉字为“会”,前第二个音的编号为227的那个特征。</SPAN></SPAN></P></BODY></HTML>
⌨️ 快捷键说明
复制代码
Ctrl + C
搜索代码
Ctrl + F
全屏模式
F11
切换主题
Ctrl + Shift + D
显示快捷键
?
增大字号
Ctrl + =
减小字号
Ctrl + -