关键词:
语域变异
语料库驱动
多元统计分析
多维度分析
摘要:
语域(Register)是在特定语言使用的场合或领域所使用的语言变体风格。语域研究一直是语言学研究的热点问题。不论在当代语言学研究中,抑或是在自然语言处理的实践中,文本的语域属性都是一个重要的参量。在功能语言学视角下,对语域的研究通常由“对于情景特征的描述”“对语言特征的描述”与“将情景特征与语言特征联系起来的语言功能”三部分组成。而围绕这三部分,笔者发现现阶段国内汉语语域研究可分为“语域类别-语言特征”“语域类别-情景因素”“情景因素-语言特征”三个层面,其各有侧重、互为补充,逐渐脱离语域分类的束缚,朝着多特征、多语域、系统性、量化的方向发展。然而,由于对文本外部情景因素量化的困难,至今未有基于大规模语料库的,对汉语语言特征与情景因素定量关系的研究,在定量研究与系统性理论构建的结合上也出现了相对的空白,且针对网络语域等新兴语域的系统性研究也相对缺乏。
为了弥补上述欠缺之处,本研究构建了包含情景因素、语言特征、语言功能的语域变量体系,以合计356万字的现代汉语口笔语平衡语料库与综合网络语料库作为数据依托,采用探索性因子分析对语域间的情景与功能变异进行了定量描述,对语域及语域变异形态提供了实证上的依据。借助多元回归分析、聚类分析等多元统计方法,探究了文本中语言特征频率与文本外部情景因素之间的定量关系,并据此讨论了语域变异的深层作用机制,对文献中的诸多宝贵思辨性论点加以论证支撑。具体地,本研究尝试实现以下研究目的:1)实现以“情景因素”“语言特征”两个语域变量对现代汉语语域变异的全方位定量描述与比较,发现基本语域变异分化模式,并据此构建汉语文本功能自动测量模型。2)探究与发掘现代汉语中各语言特征频率与情景因素间的量化关系,并最终达到通过分析文本中各语言特征频率来预测文本情景因素水平的目的。3)基于实证数据探究语域变异的实际作用机制,探索文本外部情景因素如何通过决定语言功能,继而影响文本内部语言特征频率分布。
为了达到以上研究目的,本研究分别做了以下努力:语料库建设、特征标注量化、基于多维度模型的语域变异描述、情景因素与语言特征数量关系的探索,由变异描述到变量间关系探究,由宏观到微观,从表面到本质,层层深化,最终落地于实践,在汉语语域变量体系构建、“现代汉语语言特征-情景因素”对应关系知识库、语言功能“共性”与“个性”、网络语域量化探究等领域做了以下的推进。
一.汉语语域变量体系构建。本研究提出了包含语言特征、情景因素、语言功能的语域变量体系,该体系基于文本中语言特征频率这一最容易由计算机识别与量化统计的语言参数,以及探索性因子分析、多元回归分析、聚类分析等常见多元统计模型,因而整体上较易操作,具有较强的可扩充性与可兼容性,适用于各种基于语料库的汉语语域相关研究,如“语域类别—语言规律”的研究、文本语言功能、情景因素的测量、语域变异研究、语言特征的情景属性研究等。基于该体系,本研究以实证数据对语域的本质及语域变异形态,及语域变异作用机制进行了阐释,证明了各语域间在语言功能与情景方面的变异是渐变与连续的,而非绝对对立或完全割裂的。语域之间的界限同样是模糊的,语域之间交叉重叠现象明显。每个文本都可以视作多个情景因素搭配的集合,而各情景因素间的搭配与共现模式同样呈现出一定的规律性,因此情景因素之间的高频搭配模式构成了典型的语域类别,而语域之间的交叉、渗透或语域演变现象也均可由情景因素搭配模式中个别情景因素的变异来解释,高频搭配模式中某些情景因素的改变构成了非典型的语域类别或混合语域形态。
二、“现代汉语语言特征-情景因素”对应关系知识库。语言运用中,人们会不知觉地根据所处情景决定语言特征的选择,因而大部分语言特征都内化了一定的情景信息,本研究以语料库驱动的方式,基于两个自建综合汉语语料库以及变量聚类分析、多元回归分析等统计方法,将这种依靠经验不断习得的内化于人类大脑与语言能力中的“情景因素-语言特征”关系通过计算机进行了批量发掘,得到了汉语中各语言特征所相关联的语言功能及情景因素的知识库,以实证研究的方式支持了先前文献中基于研究者经验得出的“情景因素-语言特征频率”对应关系,亦为今后汉语语域的实证研究提供了更多量化依据,“现代汉语语言特征-情景因素”间量化关系的建立也使得情景因素属性可作为一项新的属性信息加入自然语言处理实践。由此衍生的文本情景因素自动预测机器学习模型,则实现了通过分析汉语文本中各语言特征频率而对外部情景因素的预测。
三、语言功能“共性”与“个性”。本研究首次将多维度分析法应用于英汉系统性跨语言的对比中,为语言的“共性”与“个性”提供了更多来自汉语研究的依据,也为系统性英汉对比提供了方法上的借鉴。语言的“共性”方面,本研究从多方面进一步印证了Biber提出的“信息性/参与性、叙述性/非叙述性”作为人类普遍语言功能维度的假想