关键词:
词性标注
特征提取
识别规则
“别说”
摘要:
在词性标注时,对汉语兼类词的标注一直是难点所在。“别说”是一个存在典型兼类属性的语言单位,它有动词短语、连词和话语标记三种属性。本文是通过对“别说”三种属性的固定句式、固定搭配词和上下文特征进行整理、归纳和对比之后,总结出可以帮助计算机识别“别说”具体属性的识别规则,以辅助提高该词的标注正确率。首先是对“别说”属性的介绍。“别说”有三种属性,分别是动词短语“别说1”、连词“别说2”和话语标记“别说3”。三种属性从用法和功能上存在差别,“别说1”的功能主要有三种:终结当前话题、阻止将来话题和主观评价功能。“别说2”的功能主要有三种:对比陈述功能、情感倾向功能和语义强调功能。“别说3”的功能主要体现了元语用功能中的人际互动功能,“别说3”之后的内容有一定的新异特质。其次,我们对“别说”的句法位置和结构规则进行整理和量化分析。当“别说”位于句首时,有70.99%的可能为连词属性,有28.97%的可能为动词短语属性,作为话语标记的概率较小。当“别说”位于句中时,“别说”用作动词短语的可能性为52.23%,用作连词的可能性为47.50%,概率相差不大,作为话语标记用法出现的概率依然较小。当“别说”处于句末时,作为话语标记使用的可能性为81.94%,只有17.61%的可能性是用作动词短语,作为连词用法的概率很小。在单独成句(使用)的这一情况下,“别说”有91.30%的可能性是用作话语标记,只有8.70%的可能性用作动词短语,没有用作连词的情况。在结构规则对比中,我们整理出了“别说”三种属性的固定句式和固定搭配,其中“别说1”有10种固定句式及搭配,“别说2”主要有6种,对“别说3”我们穷尽式地整理了所有整体用作话语标记的固定式,共有23种,并整理了固定搭配词,主要有9类。之后对“别说”的上下文内容进行了整理,并结合“别说”所处的句法位置进行了量化分析。根据分析我们整理出了当“别说”在句首、句中、句末或单独使用时,大概率对应的上下文内容。最后我们对所有规则进行整合,建立相应的规则集,制定识别流程,并对识别规则进行了验证。我们在本章中建立了固定句式集,代码为“JS1”“JS2”“JS3”,分别对应“别说1”“别说2”“别说3”。建立了搭配词集,代码分别为“DPC1”“DPC2”“DPC3”,分别对应“别说”的三种属性。结合句法位置建立了上下文内容集,代码为“SW2”“SX1”“SX2”“ZX1”“ZX2”。我们将依据固定句式的判定制定为一级规则(R1),依据搭配词的判定制定为二级规则(R2),依据上文内容的判定制定为三级规则(R3),依据下文内容的判定制定为四级规则(R4),逐级进行筛选标注,最后输出结果。之后使用提取规则的原始语料和第三方语料对识别规则的效果进行人工验证。最终,对原始语料的标注正确率为94.59%,对第三方语料标注的正确率是97.49%。通过对“别说”三种属性的特征提取和归纳,我们整理出了不同属性的“别说”特有的规则。识别规则的建立和验证也证明了通过这种方法区分“别说”的三种属性是有效的。