关键词:
行为义
认知义
话语标记
规则提取
“我说”
摘要:
对话语标记的研究源于国外,并逐渐在国内发展起来,研究成果颇丰,但从中文信息处理的角度对其相关内容进行研究还存在较大不足。因词本身特点多样,在进行机器识别和词性标注时存在一定的误差。因此,本文在此种情况下,对现代汉语中“我说”的具体情况进行考察。本文在以往研究的基础上,对主谓结构“我说”的各个用法进行界定、分类,并在此基础上,进行相应规则的提取,最后对相关语料进行验证。本文主要采取定性和定量的统计方法,从固定搭配、邻接词性、共现字符三个角度对“我说”各用法下的规则进行提取。从固定结构搭配、固定词性搭配、前紧接词性、后紧接词性、共现字符5个方面对行为义“我说”的规则进行总结;从固定结构搭配、固定词性搭配、共现字符3个方面对认知义“我说”的规则进行总结;从固定搭配的角度对话语标记规则进行总结。通过对相关语料的分析,得出“我说”在MLC口语语料库中,行为义用法占比79%,认知义用法占比17.2%,话语标记用法占比3.8%,由此可以看出,在日常交际中,“我说”的整体使用情况为:行为义>认知义>话语标记。由于在日常交际中,行为义用法较多,话语标记用法较少,因此,在进行规则提取时,我们主要采用排除法,在行为义规则的基础上对认知义、话语标记规则进行提取,在尽可能涵盖所有语料的基础上,对“我说”的3种用法规则进行提取。在进行规则整理时,我们将“我说”三种用法下的规则按照一定的优先级顺序共总结出十九条“我说”各用法的识别规则。但在规则整理过程中发现部分“我说”用法的判断需要借助上一话轮内容,此时我们在进行各用法规则分析时已进行了相应的总结,但该种情况下我们无法将该部分规则放入整个识别流中,因此,在一定程度上对“我说”的识别正确率造成了一定的影响。由于“我说”各用法之间使用情况存在较为显著的差异性,因此我们在“我说”三种用法的识别上存在较大的难度,最后人工验证显示,行为义、认知义、话语标记的F值分别为96.4%、75.7%、62.8%,可见行为义规则的适用性较强,但在认知义规则和话语标记规则上还有较大的完善空间。在文章的最后,我们对验证结果进行分析,共总结出6种影响“我说”三种用法正确识别的原因,以期为正确识别“我说”的三种用法提供一定的参考。