📄 汉语词汇定量研究的运用及其特点.txt
字号:
汉语词汇定量研究的运用及其特点
——兼谈《语言学方法论》的定量研究观
(刊《厦门大学学报》2001年第4期)
苏新春
厦门大学
摘 要:定量研究的兴起是当代汉语语言学一个引人注目的特点。它把对语言规律与特点的阐述融于对大批量语料的定量分析之中,使语言研究更富于客观性、科学性,语言的一些本质特征更容易凸现出来。本文详细论述了定量分析方法在汉语词汇学中推广运用的历史背景与使用特点:对汉语研究史中“例不十,不立法”传统的继承与光大;以专书研究为计量研究崛起的主要标志;以词量为定量研究的主要内容;并正处在由手工统计向语料库使用的转换时期。提出在词汇定量研究中要注意的三个要点。文章最后对《语言学方法论》中把定量方法等同于实验方法的观点作出了商榷意见。
关键词:定量研究方法 汉语词汇学 数据库 统计分析
中图分类号 文献标识码: 文章编号:
一、汉语词汇计量研究的形成与运用
语言研究中的定量方法就是通过对语料进行数的反映,以达到认识语言规律和特点的作法。定量研究方法认为,事物的质与量是有着密切关系的,质存在于量之中,量反映质,重要的语言现象都会以较多的量的形式表现出来。80年代以来,加强定量研究的倡导在汉语词汇学界得到很好的呼应。第一部有着严格统计学意义上的反映词量、词长、词汇分布、词语构成等断代词汇状况的数据词典《现代汉语频率词典》于1986年正式出版。[1]先后还出版了一些大型词汇统计数据资料书。[2][3]但定量研究方法对汉语词汇研究产生更大影响的还不是几部词汇数据词典的出版,而是它在专业工作者的实践工作中日益受到重视,并得到应用。几千年来的汉语词汇研究传统,都是以具体词语词义为主要对象,以考释为主要目的,以研究者的主观感悟为主要手段。到现代,虽然重视了对词汇整体的理论属性的探讨,逐渐摆脱了专注于具体词义的考释性研究的旧格局,但在研究手段上却一直没有大的改变,靠的仍是研究者个人的语感,靠的是个人所熟悉的部分语料。因此,定量研究方法的引进与推广,在当代词汇研究中有着重要的革新意义。
汉语词汇定量方法的应用与发展,有着特定的学术背景与表现形式:
1,对“例不十,不立法”传统的继承与光大。
汉语言学界一直流行着“让材料说话”的观点,特别强调对语言材料的充分占有。不说空话,不作无根底的文章,成为长期以来评判语言学论文的一条不成文的,却几乎至高无上的标准。如方言学中的词汇研究,在相当长的时间,只要收集到了方言词语,并略加甄别,就能受到录用、肯定。“让材料说话”铸成了汉语言学界特有的求实之风。在20世纪中前期,它一直是对汉语研究者最具影响力的因素之一。在这种思想的观照下,在语料挖掘与理论概括之间有着一句流传面很广的名言:“例不十,不立法”。王力先生对此很推崇,把它作为汉语史研究的基本原则之一加以论述:“所谓区别一般和特殊,那是辩证法的原理之一。这里我们指的是黎锦熙先生所谓的‘例不十,不立法’。我们还要补充一句,就是‘例外不十,法不破’。我们寻觅汉语发展的内部规律,不免要遭遇一些例外。但如果只有个别的例外,绝对不能破坏一般的规律。古人之所以不相信‘孤证’,就是这个道理。”[4](P19)这里的“十”还不是定量,只是从谨慎立论的角度来说,却含有明显的以“量”取胜的意思。不以孤证立论,根据语料的多少立论,这就是汉语研究中最朴素的量的观念,它已成为中国语言学研究中的一种潜意识与自觉行为。
2,以专书研究为计量研究崛起的主要标志。
言语材料的无限,使得语言研究要实行量化总会面临舍取难处的尴尬,这就很自然使人们转而考虑选取既容纳有相当言语材料,又有一定时代和语言特征的专书。符合这两个要求的当然首先是经过历史检验的汉语史各个阶段的书籍,如《左传》《国语》《战国策》《诸子》之于先秦、《史记》《汉书》《论衡》之于两汉、《世说新语》之于魏晋南北朝等。因此,重视专书研究的作法首先在汉语史学界流传开来也就是很自然的事了。《左传》《史书》研究专家何乐士先生的一段回忆,颇为真实地记载了这一风气之端起:
数十年我们的师辈一直不间断地倡导专书研究。拿我亲身感受而言,60年代初,陆志韦先生就亲自带领我们投身这项工作。吕叔湘先生在担任语言所所长期间曾不止一次对古汉语研究室的研究人员强调,汉语史研究应以专书研究作为基础。1979年他在写给古汉语研究人员的一份建议书中写道:“要对古代汉语进行科学的研究,就要注意时代和地区的差别。对这些差别,现在还只有一些零碎的认识,还缺少系统地探索的成果。要进行研究,现在还只能先拿一部一部的书做单位,一方面在同一作品中找规律,一方面在作品与作品之间就一个个问题进行比较。”丁声树先生生前也一再教导我们说,那种任意选取例句的作法不能科学地总结规律,应对专书进行穷尽的调查研究。[5]
专书研究的风气真正刮起来是在20世纪的80年代。这时各个历史阶段的专书都陆续有人进行了专门的研究,他们努力于反映该书的词汇整体面貌,如何乐士的《左传》《史记》研究、[6]张双棣的《吕氏春秋》研究[7]、毛远明的《左传》[8]研究等。张双棣先生这样描绘了《吕氏春秋》的词汇概况:“全书有单音词2972个,复音词2017个,总共近五千词。单音词中,名词最多,达1371个,动词次之,有1298个,形容词又次之,有464个,其他类词共有272个。从这个数字中,我们清楚地看到,《吕氏春秋》中动词的数量很大而形容词的数量相对小得多,这与《吕氏春秋》的语言风格关系很大。”[7]这已经是相当严格的定量研究了。尽管学者们大多依靠的是手工操作,语料统计数字还难保绝对的准确,但从数量的多少来看词汇的结构规律,已成为一条基本准则。
而放眼于近代汉语、敦煌学、佛教词汇学、语用学、社会语言学等相关学科中展开的其它词汇专题的定量研究,成果更是蔚为可观。这些专题性的词汇定量研究论文都采用了统计的方法。如程湘清先生的《先秦双音词研究》:“上述词语共615个,其中最多的是指人,指事物、指时地的名词语,共386个,占全部词语的62.76%;其次是指动作、行为或变化的动词语,共139个,占22.6%;再次是指人和事物的性质、状态的形容词语,共90个,占14.64%。从结构上看,绝大多数是运用语法手段词序的特点构成的,共586个,其中居首位的是并列式,共307个,占52.4%。”[9]程文作于80年代初,他所作的定量工作在当时算是相当彻底的。它的彻底性与同时代的论文稍作对比就可看得很清楚,如另一篇论文:“本文对《史记》《汉书》《论衡》三部著作中的复音实词作了全面的观察研究。我们把重点放在汉代用而现代汉语还在用的那些复音词上,这些复音词的构词格式我们全部写入了本文。汉代用而现代不用的那些实词,它们的构词格式和前者基本上相同,我们只是将这些词中的一部分写入了本文。”[10]尽管这里统计了汉代三种书的所有词语,但后续的定量工作没有跟上,因此文中仍处处可见“很少见到”“才慢慢多起来”“大部分”“较少”类的词语。这样的作法显然离定量研究还有很大的距离。
定量研究的方法,对词汇研究有其特别的便利之处。因为词汇的独立性比较强,形式化工作做起来比较容易,定量的结果有形可感,容易为人们所接受。因此,不断有学者特别呼吁加强词汇的定量研究。“如果不作定量分析,就很难把握住汉语诸要素在各历史时期的性质及其数量界限。我们的断代描写和历时研究也必然要陷在朦胧模糊的印象之中。从随意引证到定量、分析,是古汉语研究为走向科学化而迈出的重要一步”。[11] “定量方法对研究共时的语言现象意义重大,对研究历时的语言现象也同样重要。我们若能在频率、频度的基础上进一步展现某种历时现象的频度链,那么对揭示这种现象发生、发展和消亡的历史层次就有重大的意义。……运用定量方法来研究古文字资料的语法,在学者中已偶有所见,而在词汇方面,这种方法尚未引起重视,还有待提倡和推广。其实,在存疑的词汇问题中,有些只要采用定量方法,本来是不难解决的。”[12]
3, 以词量为定量研究的主要内容。
现有的词汇定量研究,涉及到的内容已相当广泛,有词语单位、词语结构、词义的产生与消失、词义义项的数量、词语的来源、同义词、反义词等等。这里的定量研究主要表现为词量的研究。词量指的就是词语在结构、单位、分布、使用等静态和动态中表现出来的数量、频率、范围的多少、高低、广狭,如词语数的量、构词能力的量、使用高低的量、结构方式多与少的量、语境语体的分布量等。词量的研究在词汇研究中具有重要作用。语言的种种重要性质和特点,都会通过“量”上的高频、高见反映出来。愈是重要的、常见的词汇现象,愈是会有较多的“量”来体现它。但应该看到,当前对词量的反映仍较多地停留在一次性的直观统计,较少进行多层面、多角度的数的分析,也很少使用复杂的数学公式来进行数值之间相关度、聚类分析等的分析。
4, 由手工统计向语料库使用过渡。
当前以词量为主要内容的定量研究,在大多数学者那里还主要是靠手工摘记卡片的方式来进行。这与研究者们的知识背景及掌握工具与手段的能力是密切关系的。许多人还不具备良好的数学知识,对统计学的方法和原理还相当陌生。王力先生晚年曾感叹过的两个遗憾之一就是没掌握好数学这一工具。这是一个时代的感叹,它在过去的几代人中有着相当的代表性。随着时代的演化,研究者们知识结构的改变,特别是电脑的普及,现在依靠语料库和统计软件来完成的词汇研究已经逐渐出现。如《九十年代汉语词汇地域分布的定量研究》就在六百万字的汉语词语库的基础上,通过流通量与分布率的定量分析,论述了大陆、台湾、香港三地词汇使用的同异程度。[13]目前汉语词汇研究中运用统计学定量研究,开展得较好的是在方言词汇研究领域和语料库领域。
在方言学领域,已有不少论文运用统计学上的相关系数方法来分析方言词汇或方言语音,以达到了解方言分区之间亲疏关系的目的。尽管它们所用的方法不尽相同,有的还停留在对方法本身的摸索、改进层面,但相比于其它领域的词汇定量研究,已经领先了一大步,显示出了统计学方法在语言研究中的广泛应用前景。
在专题语料库领域,据朱小健先生的统计,在大陆建成的专书或封闭的专题语料库已有近10个。[14]笔者近两年来建设的“《现代汉语词典》数据库”,把这部有相当权威性、规范性的语文词典作为现代汉语词汇总貌的一个缩影来进行计量分析,已完成了10余个专题的研究,对词汇学和词典学上的一系列问题进行了定量的分析研究。[①]建立封闭性的专题词汇语料库,小至某个专题、某本专书,大至某个断代,对于深化词汇研究,提高词汇研究的准确性和系统性,都是极有意义。这项工作已开始吸引了愈来愈多的词汇研究者投身其中,最近已有人在着手建设近代汉语的断代词汇语料库。[②]
语料库领域的词汇计量研究,除了来自汉语词汇学界的外,还有一股力量特别值得注意,就是来自中文信息处理界的研究者,他们在进行汉语的自然语言处理时,一般都建有千万、亿万字规模的大型语料库。前者重在对封闭语料计量后的精加工,多深入到词义内在规律的探讨,后者则重在对海量词汇的词形研究,他们对数据库的高效率利用,往往能对词汇形式与结构各个方面的量作出很精确周全的分析。这股力量还未引起汉语词汇界的足够重视,相信一旦与汉语词汇研究界结合起来,将大大有助于汉语词汇理论研究的深入发展。
定量方法在汉语词汇研究中已显示出极强的生命力,必将对由来已久的定性式研究产生巨大的震动和推进,彻底改变以往那种凭作者语感,靠对语料摘取式的主观色彩浓厚的作法。它具有自己的鲜明特点:肯定受到西方语言学定量方法的影响,但更多的是对自身研究传统中数量观念的继承与提升;词汇定量主要靠的是算术统计法,反映的多属数值与比率的直观关系,使用复杂的数学计算还不多,推理、间接的数值关系探讨也很少;针对汉语史中词汇问题研究的多,关于现代词汇的少;面向专书词汇的多,面向断代词汇整体面貌的少,面向辞典词汇的更少;选取容易封闭的书面语多,选取开放性的口语少。这就是汉语词汇定量研究的现状。
当前进行的这种汉语词汇定量研究,与外语学界的应用语言学研究中习惯使用的实验、实证、系数、加权的统计学定量研究,有着很大的不同。
二、汉语词汇计量研究中要注意的若干问题
围绕词量这一核心问题展开的词汇定量研究,有以下几点需要加以注意。
1. 选材要有代表性、典型性、封闭性。
定量研究的实质仍是通过对语料的典型取样、定量调查、深入分析,由此类推以达到认识同类语言现象本质的目的。因此,定量研究对语料的选取有着很高的要求,不同的语料在定量研究中会显示出不同的价值。如在方言近似率的定量研究中,是选取最高频的常用词,还是选取数量在几倍之多的一般词语;是以词为单位,还是以语素为单位,就有着完全不同的意见。[15]在大型的词汇统计中,语料选取是否科学往往决定成败。这也就是《汉字频率表》之所以能在同类字表中做到后来居上,可信度高的一个重要原因。[③] [16]在对现代汉语词汇进行总貌性的研究中,我们选取了《现代汉语词典》来作为建立数据库的材料,首要考虑的因素也就是它的语文性、规范性、普遍性与权威性。语料具有了代表性、典型性,才使科学结论的提出有了可靠的前提。定量研究对语料的另一个要求,就是语料的封闭性。只有封闭才能做到定量统计的穷尽、准确。建立《现代汉语词典》数据库时,发现同一个版本在不同印刷次数时,往往出现了局部的改动,或改释义,或增删词目。[④]尽管这些挖版式的改动不涉筋骨,但对定量研究还说,毕竟会时不时带来拂不去的遗憾。这使我们在建立数据库的过程中,曾一度考虑光引用“版本”的概念可能还不行,还得加上“第几次印刷”。当因种种原因语料难以做到封闭时,随机采取就失为一个好办法。笔者几年前曾手工作过《现代汉语词典》的单、复音词载义量的对比。在全书中抽取了相隔固定页码距离的16页的共480条复合词来调查,发现每个词的平均义项数是1.308个。[17]这个结果离“大多数词语是多义词”的传统说法离得太远,总让人不太踏实。现在利用数据库来统计,发现全书45606条复音词的平均载义量是1.163,与原研究结论相去不远。可知随机取样得当,同样能收到全部语料封闭调查的效果。
2. 词汇标注的多角度与周遍性
要对词汇的语义、语音、语法关系进行多角度、多层面的定量研究,少不了要进行词汇属性的标注。这是进行深入定量研究非常重要的一环。而这些高强度的工作量、高要求的准确性在语料库中能得到轻易地解决。通用语料库能快捷、大批量地处理语言,在统计字量、词量、句型句量上往往有其独特之功效,但功能较为单一,分析结果的附加信息少,大多数情况下还必须经过再次处理。所谓再次处理,就是首要要根据不同的研究目的进行属性标注。《现代汉语语法信息处理词典》对动词属性信息的标注就达128项。[18]这是一部为计算机信息处理用的后台词语语料库,其实它本身又是人们对语言精心研究的结果。笔者在进行“同形词”的研究中,为了全面反映《现代汉语词典》中1302个、640组同形词的语法、语音、词义之间的同异关系,进行的标注达20多种。[19]所谓周遍性就是同一种标注要覆盖所有的语料,无论是有或无,或有的不同级别,都要加以标示,这样才能使语料库处理起来更为便捷、准确。
3. 切入语料的角度要准,理论融入定量分析的全过程。
语料的计量分析是定量研究中非常重要的一环,甚至成为这一研究最抢眼的地方。但这只是它的外部表现,不能以为只要把语料作了量的分析就完成了所有的研究工作。语料的量化工作并不意味着自动获得研究的意义,语料不会自动显示内在的价值。它只是理论研究的一种工具。定量研究中的语料选取、语料标注、量化分析,每一个环节都要依靠理论的指导,才会使定量研究获得生命力。要克服那种只有定量,没有理论,为定量而定量,满足于统计分析过程的纯形式化研究。如同形词是词汇研究中的一个老话题,人们多从词汇规范的角度来看待它。我们在进行这一专题时,发现同形词的切分在不同的研究者手下是不同的,而这些不同的切分结果正是以不同的词汇单位表现出来的,这就引导我们思索:词与词之间的界限线如何划分?语义语音语法分别在其中起着怎样的作用?各家不同划分同形词方法的优劣如何,背后支撑的理论是什么?最后决定把研究的角度定为从把握“词”的意义范围入手。又如《现代汉语词典》(83版)有2492条词含有比喻义,使用了六种不同的训释方式。这些训释方式是否使用得当,相互之间有何联系,固然很值得词典学、释义学来研究,但更有意义的是它们反映的是什么不同性质的词义,由此把探讨的视角确定为释义方式与词义成分之间有着怎样的对应关系。从而发现《现汉》作为一部规范词典,它所反映的词义还包括了一部分富于生命力,处于形成过程,尚未定型的新词义成分。
以上几点有的体现了定量分析中的技术要求,而更多的是对定量分析方法本身的认识。定量分析能够很好地解决语料的处理、分析,直接融入论证过程之中,直接有助于研究结论的得出,但这毕竟属于语言研究技术层面的东西。它不能代替人们对语言规律的本质认识。它只有在正确的语言理性认识的指导下才会焕发出生命力。
三、实验方法不全等同于定量研究方法
桂诗春、宁春岩先生的《语言学方法论》出版后,一时洛阳纸贵。这当然首先是因为它内容的丰富与系统,而它观点的极致也格外引人注目,就是特别强调了定量研究方法的运用。“54%的人使用的是简单的思辩性的方法,随机性很大。这些研究的成果难登大雅之堂”。 “难登大雅之堂”,[20](Pⅲ)成为近20年来国内语言学界倡导计量研究之风中对非定量研究最严厉的批评。
尽管这种批评加上了一些范围限定,指的是“我国的外语工作者”;对汉语学界则表示了相当的宽容,“对母语的研究,也可依赖我们对母语的直觉观察来进行思考,提出理论模型。但是对非母语的描述性研究和实验性研究却必须以数据为依归。而我们有80%的研究都是不依赖数据的”。[20](Pⅲ)但这种严厉批评下的宽容仍使汉语学界陷入沉思:怎样的研究才算定量研究?汉语学界有没有定量研究?不同的定量研究方法有何不同的特点与效用?
之所以会提出这些疑问和思考,是因为《语言学方法论》对定量方法有着非常严格的解释。它在“9.2.定性方法和定量方法”作出了这样的论述:[20](P212)
⌨️ 快捷键说明
复制代码
Ctrl + C
搜索代码
Ctrl + F
全屏模式
F11
切换主题
Ctrl + Shift + D
显示快捷键
?
增大字号
Ctrl + =
减小字号
Ctrl + -