关键词:
结构复杂度
词汇结构
词频
词汇意义
协同关系
摘要:
本文基于兰卡斯特汉语语料库中的真实文本,配合《现代汉语词典》(第七版)和哈工大扩展版《同义词词林》,采用计量语言学方法,研究汉语词汇结构与词频、词汇意义之间的协同关系。全文共分为七章。第一章绪论,介绍了汉语词汇结构描写的研究源流以及计量语言学中对词长与词汇各属性相关关系的研究,旨在说明本研究所探讨的词汇结构与词长及广义上的词汇结构的区别和联系。本研究讨论的汉语词汇结构指具体词汇本身的结构组成和形式,与广义上所指的代表词汇属性总和的“词汇结构”不相同。其次,无论是以“字”为计量单位的词长,还是以“汉字部件”为计量单位的“词长”,都与本研究所指称和探讨的“词汇结构”不相对应。词汇结构是一个独立的表征词汇自身复杂程度的词汇属性。第二章我们引入了“结构复杂度”这一概念,并根据语素的性质、数量及其在词中的位置和次序,从词汇结构的角度,将汉语词汇划分为7个类别,并且确定了这些类别的等级和次序。从简单到复杂,汉语词汇可以划分为单纯词、派生词、重叠词、简单复合词、复合重叠词、复杂派生词、复杂复合词。类别和等级的划分,方便我们进一步研究词汇结构与词汇其他各属性之间的协同关系。第三章考察词汇结构与词频之间的相互依存关系。词汇结构与词频之间存在反向相关关系:词汇结构越复杂,词频越低。模型y=Ax-b无法描述二者的这一依存关系,但复合函数模型y=Axbe-cx被证实能够很好地拟合观测数据。反过来,词汇结构也依存于词频。词频越高,词汇结构越简单。文本中出现频率为前20的词汇,其词汇结构受词频的影响最显著。随着词频的持续增大,词汇结构复杂度并不会无限降低,词汇结构虽然受词频的影响,但也受其自身的约束。第四章考察词汇结构与多义度之间的相关关系。一方面,如果以词汇结构作自变量,以多义度作因变量,则多义度依存于词汇结构,词汇结构越简单,词汇的多义度越高,二者之间的这一关系可以用数学模型y=Ax-b来描述。另一方面,若以词汇多义度为自变量,词汇结构为因变量,则词汇结构依存于多义度:多义度越低,词汇的结构越复杂。词汇结构与多义度之间相互影响,彼此依存。第五章中检验了词汇多义度与同义度之间的正向相关关系。研究结果证实了假设:词汇的义项数越多,那么其同义词个数也越多。而函数模型y=Axb能够用来形象描述词汇多义度与同义度之间的相关关系,即多义度越大,同义度越大。模型曲线与观测数据点高度重合,推算估计值的准确度很高。第六章分析词汇结构与词汇同义度之间的相互关系。结果发现,同义度随着词汇结构复杂度的增加而降低。二者之间的这一反向相关关系,可以用复合函数模型y=Axbecx来描述。依据函数表达式我们可以由词汇结构推算规模在100万词次的文本中词汇的同义词个数。另一方面,词汇结构也受同义度的影响和约束。词汇的结构随着同义度的增加而变得越来越简单。模型y=Axbecx同样适合于用来描述这一依存关系。第七章结语,总结了本研究的发现,明确了汉语词汇结构与词频、多义度、同义度之间的协同规律,并阐明“省力原则”和“语言自组织、自适应机制”是这些语言规律形成的内在动因。本研究有助于提升在计量语言学中对汉语词汇协同规律的宏观认识,研究结果也能够为自然语言处理和汉语教学等应用领域提供一些理论参考。而在词汇结构与多文度关系、词汇特征与文本属性对协同关系的影响和不同语言的模型普适性方面,还有待于今后做进一步的相关研究。