⭐ 欢迎来到虫虫下载站! | 📦 资源下载 📁 资源专辑 ℹ️ 关于我们
⭐ 虫虫下载站

📄 design_of_wordnet_lexicon.htm

📁 此文档为wordnet的介绍文档
💻 HTM
📖 第 1 页 / 共 3 页
字号:
<html>

<head>
<meta http-equiv="Content-Language" content="zh-cn">
<meta http-equiv="Content-Type" content="text/html; charset=gb2312">
<meta name="GENERATOR" content="Microsoft FrontPage 4.0">
<meta name="ProgId" content="FrontPage.Editor.Document">
<title>WordNet词库和搜索软件的设计与实施</title>
</head>

<body>

<p>WordNet词库和搜索软件的设计与实施</p>
<p><a href="design-of-Wordnet.txt">Design and Implementation of the WordNet     
Lexical Database</a></p>        
<p>Richard Beckwith, George A. Miller, Randee Tengi</p>       
<p>(Doubtfire草译整理于2001年6月,仅供参考。欲对WordNet有更准确地了解,请细读原文) </p>
<p>词典编纂者必须既关心词典的内容,也关心如何去呈现内容,当呈现内容的媒介从纸变成电脑屏幕的时候,就需要投入更多的关心了。传统的纸上词典经过多年出版发行的实践,已经形成相当标准的模式(Vizetelly,          
1915),至于电子词典,大概还是摸着石头过河的阶段吧。事实上,计算机技术本身也在日新月异地变化之中。电子词典可以凭借计算机技术的支持以多种相对不受限制的方式呈现在读者面前。这些不同方式的利弊高下目前也仍然还是人们辩论的话题,并没有定论。由于这种不确定性,电子词典的编纂者就应该投入更多的精力去关注词典的呈现方式。</p>    
<p>WordNet将是这方面工作的一个先例。研究人员的努力使得WordNet的词库实践富于成效。不过这并不代表现有的办法就是最终的标准。我们希望读者不仅仅注意到目前我们所采用的方式的不足之处,同时更应该多去思考改进之道。</p>    
<p>人们对WordNet的第一个印象很可能是它是一个在线义类词典(online          
thesaurus)。同义词集合(sets of synonyms)确实是WordNet词库的基石,也是WordNet构成一个义类词典的根本所在。当简短的注释(short          
gloss)加入到同义词集合(synonym set)中时,WordNet就好像成了一部补充了同义词作为交叉参考的在线词典(Calzolari          
1998)。但实际上,WordNet包含的信息远不止此。作为将英语使用者的英语词汇知识加以模式化的一种尝试,WordNet给出了词语形式(word          
form)与同义词集合(synonym set, 即synset)之间关系的许多详细信息。如何将这种关系结构呈现给读者所引起的问题,超出了传统的词典编纂所考虑的问题的范围。</p>        
<p>在WordNet的开发过程中,将开发工作分成两个相对独立的任务为我们带来了便利。这两个相对独立的任务,跟传统的词典编写和印刷有大致的类似性。一个任务是编写源文件(包含基本的词汇资料)——这些文件的内容是WordNet词库的实体;另一个任务是开发一系列计算机程序,这些程序可以处理源文件,并最终产生出可以在用户面前呈现的词典内容。</p>   
<p>WordNet系统自然地分成了四部分:(1)WordNet词典编纂人员的源文件;(2)将这些源文件转成WordNet词汇数据库的软件;(3)WordNet词汇数据库;(4)用于访问这些数据库的一套软件工具;WordNet系统是在一个Sun-4工作站网络环境中开发的。软件工具的编程环境是C语言、Unix工具、外部命令解释脚本等。到目前为止,WordNet已经可以在如下计算机环境下运行:Sun-3,          
DEXstation, NeXT,IBM PC及兼容机,Macintosh。</p>         
<p>接下来我们将讨论WordNet的设计和实施的总的特点。“WordNet参考手册”(WordNet          
Reference Manual)是一组描述WordNet系统的细节的文件,尤其是对用户界面和文件格式进行了描述。这两方面合在一起,可以提供一个关于WordNet系统的相当全面的观察视角。</p>         
<p>1&nbsp; 熟悉度指数(Index of Familiarity)</p>         
<p>关于大脑词库的最著名的也是最重要的心理语言学事实之一是,人们对一些词语比另一些词语更熟悉。对一个词语的熟悉度在许多方面会有所表现:阅读速度,理解速度,易于回忆,使用概率,等等。这些方面的影响如此普遍地存在,以至于那些希望研究词语其他性质的实验者,即便付出极大的努力,也很难将不同词语的熟悉度程度视作一样。换言之,词库的初衷是反映心理语言学原则,如果在词库中忽略词语的熟悉度在上述表现上的差异,将是不可想象的。</p>   
<p>为将词语熟悉度的差异反映到WordNet中,我们给每个词形式(Word          
Form)关联了一个熟悉度的句法标记指数。这个指数并不反映熟悉度差异的所有结果          
——          
一些理论家可能会要求给每个关系附加上权重 —— 
但全部结果的精确信息并不容易得到。目前的熟悉度指数还只是第一步的工作。</p>   
<p>使用频率通常被认为是熟悉度的最好体现。那些扮演着重要的句法角色的封闭类词语是使用频率极高的词语,不过,甚至在开放类词语中,使用频率上也存在着较大差异         
——         
使用频率通常被假定为跟熟悉度的差异相关,或者干脆就用前者来解释后者。词频数据在一些技术文献中可以查到,但是,对于WordNet这样规模的词库来说,原有的词频数据还是不够的。Thorndike和Lorge(1994)出版了基于500万词文本语料库的统计结果的词频表,不过他们只报道了3万常用词的结果。此外,他们对词的定义是两个空格间的字符串,因此他们对同形异义字(homograph)的统计是不可靠的,比如他们的结果无法说明lead这个词作为名词和作为动词出现的频率有什么差别。Francis和Kucvera(1982)用他们自己的句法类标记来标明词语的词性,不过他们报告的结果仅仅是从包含1,014,000个单词的文本中得到的结果(含有50400个词形,其中包括许多专有名词)——         
因此这个结果对反映非常用词的频度是不够的。(通常的语速为120词/分钟,因此100万词大约相当于140个小时的话语,或者一个人两周所说的话)</p>    
<p>幸运的是,我们还有另外的办法来表示熟悉度。Zipf(1945)的研究表明,词语出现的频率跟多义性是相关的。平均来说,频度越高的词语,在词典中也就有越多的不同意义。心理语言学一项令人感到有趣的发现(Jastrezembski,1981)是,多义性似乎预示了人们访问大脑词库的时间,就好像一个词的频度所能起到的作用那样。</p>    
<p>因此,WordNet不用词语的出现频度来指示熟悉度,而用多义性来反映熟悉度。词语义项数可以从一部在线词典中得到。如果那些不在这部词典中出现的词语被指派熟悉度指数值为0,对于词典中收录的词语,则根据词语的义项数来指派熟悉度指数(比如1、2、3、……等等),那么,这样的数值就可以为各个词类中的每一个词指派一个。因此,对于WordNet中的每个词形式,都用一个整数值来记录该词形式(作为名词、动词、形容词、副词使用时)的义项数。WordNet所依据的词典是Collins英语词典。</p>   
<p>下面表1显示了熟悉度指数的用处。</p>   
<p>  Table 1   Hypernyms of bronco and their index values(表1:bronco的上位词和义项指数)/* 
詹按:下表中义项数有些跟用wordnet浏览器查询时的结果是不相符的 
*/<br>       
<br>   
<img border="0" src="table_1_design.JPG" width="477" height="307"><br>   
</p>   
<p>如果要查bronco(野马)的上位词(superodinate),WordNet可以回应给用户答案:表1中的一系列上位概念(hypernym)。现在,如果这些词都带有熟悉度指数(按照义项数计算)——那么,那些值为0,1的词语就可以被滤去,因为这些词都属于专业术语类的词语,这样,bronco的上位概念就简单地包含:</p>   
<p>bronco @-&gt; pony @-&gt; horse @-&gt; animal @-&gt; organism @-&gt; entity</p>        
<p>这个缩短了的链更接近人们期望的答案。显然,词语的熟悉度信息是有用的,在人们选择措辞的时候对此会有所体会。用户可以通过在WordNet层级中检查多义性来寻找那些更为人们所熟悉的词语。</p>    
<p>如果熟悉度指数可以指派到词的义项上,而不仅仅是指派给词形式上,那么,WordNet对人类语义知识的模拟会显得更真实。比如,名词tie作为{tie,         
necktie}意义使用,远远比作为{tie, tie beam}更常用,但目前这两种意义下,tie的熟悉度指数都是一样的13。/* 
詹按:查wordnet 1.6版浏览器结果</p>       
<p>2&nbsp; 词典编纂者的源文件(Lexicographers' Source Files)</p>         
<p>WordNet的源文件是由词典学家编写的。这些文件是词汇语义学分析的产物:多种词汇关系和语义关系被用来表示词汇知识的组织方式。词形式(word         
form)和词义(word meaning)是这些文件中可见的两个基本构件。词形式以规范的词形表示;词义以同义词集合(synset)表示。词汇关系是两个词形式之间的关系;语义关系是两个词义之间的关系。</p>        
<p>WordNet将名词、动词、形容词、副词都组织到synset中,并且进一步根据句法类和其他组织原则分配到不同的源文件中。副词保存在一个文件中,名词和动词根据语义类组织到不同的文件中。形容词分为两个文件(descriptive形容词和relational形容词)。<a href="appendix-a.txt">附录A</a>给出了这些源文件的名称。</p>   
<p>每个源文件都包含了一个词类的synset的一个列表。每个synset由这些内容组成:同义词形式,关系指针,以及其他一些信息。三种指针表示的关系包括(但不限于):hypernymy/hyponymy(上下位),entailment(继承),meronymy/holonymy(部分-整体/材料-实体/成员-集体)。多义词是那些出现在一个以上synset中的词,因此代表了不止一个概念。一个词典编纂者常常在一个synset中加入文本注释(textual         
gloss),通常可以提供有关这个synset中同义词及其用法的一些信息。在显示的时候,文本注释包含在数据库中,可以由查询软件显示。评注则在synset之外,由圆括号标示,不包含在数据库中。</p>    
<p>描写性形容词组织成一些聚类(cluster),代表了一些属性的一系列的值,从一端到另一端。因此,每个形容词聚类都有两部分(偶尔也有三部分),每部分由一个反义词形式对(antonymous         
pair of word forms)作为中心,叫做中心同义词集合(head synset)。大多数中心同义词集合有一个或多个卫星同义词集合相随,每个卫星同义词集合代表了一个概念,跟中心同义词集合所代表的概念比较接近。读者可以通过车轮这个形象来想象这个结构,中间的轴(hub)代表了中心同义词集合,围绕中轴的轮辐就是卫星同义词集合。两个或多个车轮根据逻辑上的反义关系连接起来,反义关系相当于两个车轮间的横轴。</p>        
<p>Grinder软件工具将词典编纂者编写的源文件转换成WordNet数据库。在这个过程中,它检查文件的语法是否正确,解析(resolve)关系指针,然后生成WordNet数据库,供检索软件和其他研究工具软件使用。</p>    
<p>3&nbsp; 词形式(Word Forms)</p>         
<p>在WordNet中,一个词形式是由一个单个词或一串由下划线连起来的“词”来表示的。一个“串词”指一个搭配词,表示一个单一的概念,比如名词搭配词:fountain_pen(自来水笔)</p>    
<p>在词典编纂者编写的源文件中,一个词形式可能增添了额外的信息,这对正确的处理和解释源文件数据是必需的。用整数表示的义项号添加到词形式后,用于确定一个词形式的准确意思,如果这个词形式在一个文件中出现一次以上的话。此外,还在圆括号中包含了一个句法标记(syntactic         
marker),补充在这样的形容词形式后,这些形容词的特点是,它们出现的位置相对于它们所修饰的名词而言是固定的。WordNet中的每一个词形式靠这些信息来标示:词形本身,句法类,语义类,义项号。这些信息成为所谓的索引关键字“key”,唯一的来识别数据库中的一个词形式。</p>    
<p>4&nbsp; 关系指针(Relational Pointers)</p>         
<p>关系指针代表了一个synset中的词形式跟另一个synset中的词形式之间的关系(既包括词汇关系,也包括语义关系)。词汇关系存在于关系性形容词和它们相关的名词的之间,以及副词和导出这些副词的形容词之间。语义关系存在于形容词和跟这些形容词所表示的值对应的属性名词之间。名词属性和表示这些属性的值的形容词之间的语义关系也被编码了。上述关系就是目前WordNet中包括的从一个句法类到另一个类的指针。反义关系也是词汇关系。同义关系是暗含在同义词集合中的。表2归纳了这些关系指针(按照句法类列举)。</p>    
<p>Table 2   WordNet Relational Pointers(表2:WordNet的关系指针)<br>       
</p>    
<table border="0" cellpadding="0" cellspacing="0" width="673">    
  <tr>    
    <td width="156"><p><b>Noun&nbsp;</b></p>    
    </td>    
    <td width="163"><p>           <b>           Verb&nbsp;</b></p>    
    </td>    
    <td width="197"><p>          <b>          Adjective</b></p>    
    </td>    
    <td width="149"><p><b>Adverb&nbsp;</b></p>     
    </td>    
  </tr>    
  <tr>    
    <td width="156"><p></p>    
    </td>    
  </tr>    
  <tr>    
    <td width="156"><p>Antonym !&nbsp;</p>       
    </td>    
    <td width="163"><p>     Antonym !&nbsp;</p>       
    </td>    
    <td width="197"><p>      Antonym !&nbsp;</p>       
    </td>    
    <td width="149"><p>           Antonym !&nbsp;</p>       
    </td>    
  </tr>    
  <tr>    

⌨️ 快捷键说明

复制代码 Ctrl + C
搜索代码 Ctrl + F
全屏模式 F11
切换主题 Ctrl + Shift + D
显示快捷键 ?
增大字号 Ctrl + =
减小字号 Ctrl + -