⭐ 欢迎来到虫虫下载站! | 📦 资源下载 📁 资源专辑 ℹ️ 关于我们
⭐ 虫虫下载站

📄 foreword.htm

📁 詹卫东老师的博士论文
💻 HTM
字号:

<html>

<head>
<meta http-equiv="Content-Type" content="text/html; charset=gb2312">
<meta name="GENERATOR" content="Microsoft FrontPage 4.0">
<meta name="ProgId" content="FrontPage.Editor.Document">
</head>

<body>
<p align="center">序<br>
<br>
</p>
<p><br>
中文信息处理,我国从50年代就起步了,这是从俄汉机器翻译开始的。《中国语文》1959年11月号,报道了“俄汉机器翻译初步试验成功”的消息。该项研究是由当时隶属于中国科学院的语言研究所和计算技术研究所合作进行的。他们以俄文数学文献彼德罗夫斯基的《偏微分方程讲义》一书为主要材料,试图通过他们所研制的俄汉机器翻译系统将该书翻译成汉语。据报道这套俄汉机器翻译系统“对于翻译该书的大部分句子都是有效的”。这里,我们不想搞清楚当时的这套俄汉机器翻译系统是否真能如报道所说“对于翻译该书的大部分句子都是有效的”,但是有一点大概可以肯定,这套俄汉机器翻译系统并未真正已经解决了汉语的字处理、词处理、句处理等问题。但是,这次成功的试验,对中文信息处理来说,毕竟是个可喜的、值得庆贺的开端。与此同时,当时的北京外国语学院、广州华南工学院、哈尔滨工业大学等高等院校,也分别成立了机器翻译研究组,开展俄汉或英汉机器翻译的研究试验。当时,在机器翻译方面,我国的研制水平可以说跟苏联和欧美不相上下。但由于众所周知的原因,从60年代中期至70年代中期,我国中文信息处理研究工作虽没有完全停顿,但进展缓慢。70年代末,80年代初,跟其它学科一样,中文信息处理迎来了发展的春天;特别是进入90 年代之后,由于计算机学界与语言学界双方更紧密地结合,中文信息处理出现了大发展的情景。到目前为止,我们已基本上解决了“字处理”( 汉字输入和显示)的问题,初步解决了“词处理”(中文自动分词、词性标注)的问题,但离开信息科学发展的需要还有相当大的距离。</p> 
<p><br> 
20-21世纪,可以说是人类社会又一个大的转折时期――从工业时代步入信息时代。进入21世纪之后,20世纪后期开始建立起来的“信息高速公路”将通遍全球,进入千家万户。正是这种时代发展趋势,促使自然语言信息处理成为目前全球性关注的研究热点。特别是像美国、日本、欧共体等,据有关报导,从20世纪80年代开始他们就已投入大量人力、物力,有的作为政府行为,加速智能计算机的研制开发工作;在着手进行研制开发智能计算机的过程中,都不约而同地把语言信息处理放在非常重要的地位来考虑,并都希望自己在信息科学与工程领域内独占鳌头,能起操纵的作用。<br> 
</p> 
<p>就中文信息处理说,眼下特别要集中精力解决好“句处理”问题。现在句处理有多种策略和途径――有基于句法规则的,有基于概念网络的,有基于语料库统计的,有基于语义计算的,等等。形成了一个竞相研究、竞相发展的局面。这不能不说是一个可喜的现象。但也不能不看到,在这种竞相研究、发展中,存在着各执一端、唯我独是的门户之见,这将严重影响着我国信息科学的发展,削弱我国信息科学在国际上的群体竞争能力。其实,在目前,我们很难说哪一种策略和途径是唯一正确、唯一合理、唯一可取的。须知,无论使用哪一种策略与途径,都离不开我们对汉语的认识,离不开有关汉语的知识。而我们对汉语的认识,或者说我们应具有的有关汉语的知识,应该是一种涉及到语音、语义、语法、语用等诸方面的综合的知识,因为人用语言向对方表达自己的思想、看法、情感,或者从对方的话语中准确理解对方的思想、看法、情感,都需经过一个复杂的编码或解码的过程,而在这个编码或解码的过程中事实上要调动各种各样的因素,单就语言这个角度说,起码也得调动语音、语义、语法、语用等各方面的因素(如果是通过书面语言进行交际,还得调动视觉方面,或者说图象方面的因素)。因此,各种策略和途径我们都需给以足够的重视,都应给以足够的支持;同时也都难免存在偏颇的缺陷。因此,各种策略和途径都应该继续深入研究下去,各种策略和途径可以而且应该各显神通;但同时一定要互相吸取,取长补短,通力协作,逐步形成在信息科学领域里能在国际上与他国抗衡的群体竞争力量。我们应该建立这样的共识:不是我自己或者我们单位自己,而是我们整个国家,在不太长的时间里,在中文信息处理,乃至自然语言理解和处理方面,从工程到理论,能达到世界先进水平,继而能居世界领先地位。<br> 
</p> 
<p>在这里我们不能不提醒大家注意这样一点:即使是中文信息处理我们也面临着严峻的国际挑战。我们需要清醒地看到,不要以为“中文信息处理中的句处理”我们一定是大拿,优势一定在我们中国人手里。就目前的形势看,我们只能说“中文信息处理中的句处理”的优势有可能在我们手里。我们需要了解这样一个事实:中文信息处理,国外早就注意并着手研究了。以往,他们是在国外或者将研究课题交给中国有关研究机构或高等院校来做,他们出钱;或者他们从中国雇人去他们那儿进行研究。这两年来,起了变化,他们陆续进驻中国,在北京、上海等地设立中文信息处理的研究机构或基地,以高薪雇佣中国研究人员(对他们来说,比在国内所花的费用还是低得多),与中国研究机构与高等院校争夺人才,争夺中文信息处理的“制高点”。因此,如果我们不觉醒,如果我们还是上面不重视、不积极支持,下面不团结,不合作,那么这中文信息处理的“制高点”不要几年就会被外国公司或研究机构所占领。这决不是危言耸听,是严酷的现实。<br> 
</p> 
<p>詹卫东同志的《面向中文信息处理的现代汉语短语结构规则研究》是属于基于规则的策略和途径方面的一项研究成果。汉语的短语结构是汉语句子的基础结构。这项研究工作的目的,是尝试以形式化的方式对现代汉语短语结构的组合规则进行全面的描写,并探讨解决短语结构歧义问题的途径,以便为计算机提供处理和理解汉语句子所必不可少的汉语知识。全书共七章,第一章“引论”,扼要地对中文信息处理技术的发展状况和目前现代汉语语法研究的水平进行宏观的评介,以此说明该项研究的基础和出发点;第二章“现代汉语短语句法语义属性范畴的确立”,主要是提出了一个综合运用句法语义属性的面向中文信息处理的分析、描写短语结构的理论框架,在这个理论框架中建立了汉语实词的分类系统和带有开创性的“广义配价模式”;第三章“现代汉语np、ap、vp、dj的句法语义规则”,对现代汉语里四类短语结构――名词性短语(np)、形容词性短语(ap)、动词性短语(vp)和主谓短语(dj)的组合规则进行了系统而具体的形式化描写,列出了89条关于这四类短语的句法语义规则,基本上呈现了现代汉语短语结构规则的主体面貌,从而把以往汉语学界从句法、语义两方面所作的面向人的有关现代汉语短语结构的研究成果跟作者自己在这一方面所作的面向计算机的研究成果结合起来,组织成了一个可以为计算机分析现代汉语短语结构提供直接支持的规则库;第四章“现代汉语短语结构歧义类型分析及分布统计”和第五章“现代汉语短语结构歧义的消解策略分析”,细致分析了计算机处理现代汉语短语结构时所面临的“定界歧义”和“结构关系歧义”的问题,从不同角度对现代汉语短语结构歧义的不同类型进行了分析,而且通过统计获得了一份比较完整的、计算机分析现代汉语短语结构时可能碰到的种种歧义格式的清单,针对不同类型的短语结构歧义的特点,对相应的排歧策略做了探讨,并对一些典型的短语结构歧义格式,提出了虽是初步的但明显是有效的排歧办法;第六章“实验结果示例及难点分析”,向读者具体而如实地报告了作者运用上述种种规则对从调试规则所用的语料中抽取的100个例句让计算机进行自动分析的结果,结果显示用作者现有的短语结构规则分析短句,效果还是可以的,但有些歧义现象(如“我和我最好的朋友在这里堆雪人打雪仗”里的“和”既可以看作是连词,又可以看作是介词),在作者现在所提供的短语结构规则描写框架下还无有效的解决办法;第七章“结语”,一方面作者对自己所作的这项研工作进行了较好的总结,指出了这项研究工作的意义与可能有的贡献,说明了作者自己通过这项研究工作所获得的有关认识,提出了今后在该项研究上的进一步的设想。<br> 
</p> 
<p>本书是作者在博士论文的基础上修改加工而成的。该书到底写得怎么样,应由广大读者,尤其是这方面的行家去加以评论,我作为作者的导师,不便在这里多说什么。不过,请允许我在这里介绍几位中文信息处理方面的专家在詹卫东同志博士论文答辩会上的一些评论意见。<br> 
</p> 
<p>冯志伟研究员(国家语委)说:我是很挑剔的,我对詹卫东论文中的89条规则逐一进行了检查,想挑出些毛病或破绽,结果没有发现。他这些规则可直接用于语言信息处理。<br> 
</p> 
<p>张  普教授(北京语言文化大学语言信息处理研究所所长)说:詹卫东同志的论文写得很朴实,毫无哗众取宠、故弄玄虚之处,不光写自己研究中获得成功的内容,也如实地摆出了问题与难处。另外,有很强的可读性。有的人把本来很好懂的道理讲得让人看不懂。中文信息处理中的许多理论规则对一般人来说不是很好懂的,而詹卫东这篇论文能把很难懂的理论规则说得深入浅出,通俗易懂,这是难能可贵的。<br> 
</p> 
<p>刘  群副研究员(中科院计算技术研究所)说:我们正在搞汉英机器翻译,詹卫东同志所提出的短语结构规则和排歧策略在我们的系统中试用的效果是不错的。而且作为文科背景的研究人员,他能很好地跟计算机背景的研究人员合作,把语言知识尽可能合理地安排到一个形式化的框架中。<br> 
</p> 
<p>俞士汶教授(北京大学计算语言学研究所副所长)说:我对博士生论文的要求是很严的。过去也好,今年也好,好几篇博士论文曾有评委提出来是否可考虑评为优秀论文,并写进答辩委员会的决议中去,我都曾持否定意见。但詹卫东这篇博士论文我确实认为可以称得上优秀论文。(附注:俞士汶教授关于“詹卫东同志的博士论文可评为优秀论文”这个意见经答辩委员会一致同意后,写入了答辩委员会的决议中。)<br> 
</p> 
<p>黄国营教授(清华大学中文系)说:该文在理论与实际的结合上尽了最大努力,为中文信息处理提供了一个有价值的理论框架和许多可行的具体操作规则。<br> 
</p> 
<p>请原谅我在这里只介绍了他们几位对詹卫东论文的褒扬之词。当然他们也提出了许多宝贵的修改意见。论文答辩以后,詹卫东同志正是根据各位答辩委员和他的师兄弟们所提出的意见,对论文进行了认真的修改。<br> 
</p> 
<p>最后,我想用詹卫东同志自己书中的两段话来结束这篇序文。<br> 
</p> 
<p>    一个研究课题总是针对一个或一些特定问题的。一方面,探索真理的路永远没有尽头;另一方面,在一个具体的研究课题范围内,对现有为题的解决通常总是有一定限度的。因此,在一个研究课题暂时告一段落,人们要思量下一步该如何去做的时候,也无非是在这两个方面做更多的努力,即一面结合更多的实践,对现有的框架进行检验并向纵深挖掘;一面在现有的研究成果基础上,探索如何开辟更广阔的研究空间。<br> 
</p> 
<p>    本研究工作可以看作是以更为宏大的目标――“编写一部计算机用的现代汉语语法”――的一部分。虽然距离语法大厦的最终建成还有许多路要走,但我们希望,已经迈出的这一步能够或多或少、或正面或反面地昭示未来的方向。如果本研究工作能够成为将来真正完整意义上的“计算机用现代汉语语法”的一个组成部分,那么毫无疑问走这一步是值得的,因为它是通向成功的足迹中的一个;如果将来的“计算机用现代汉语语法”全然是另一幅图景,那么这一步也是值得的,因为它虽然没有留下一个成功的印迹,但至少竖起了一个“此路不通”的标牌。<br> 
<br> 
<br> 
                                                陆俭明<br> 
                                                于北京大学中关园寓所<br> 
                                                2000年元旦</p> 
</body> 
 
</html> 

⌨️ 快捷键说明

复制代码 Ctrl + C
搜索代码 Ctrl + F
全屏模式 F11
切换主题 Ctrl + Shift + D
显示快捷键 ?
增大字号 Ctrl + =
减小字号 Ctrl + -