关键词:
动趋结构
语法工程
深层自然语言处理
中心语驱动的短语结构语法
摘要:
本研究以中心语驱动的短语结构语法(Head-driven Phrase Structure Grammar,HPSG)为理论基础,借助《现代汉语词典》(第7版)(简称:《现汉7》)和中国语言学研究中心在线语料库(Center for Chinese Linguistics Online Corpus,CCL语料库),完成了现代汉语复合动趋结构(V+D)进行深层自然语言处理。
该研究参照杨春雷(2023)提出的汉语语法工程(Grammar Engineering,GE)的混合工作流程,共设置9个环节。
环节(1)至(4)为动趋结构的语言学本体研究,是GE的基础环节,包括甄别问题、建立首批测试套件、扩充和分析语料、提出假设。通过甄别问题和建立首批测试套件,我们确立研究目标为汉语动趋结构的语法工程开发。在扩充和分析语料环节,自建基于动词义项的现代汉语复合动趋结构库(简称:动趋库),从句法关系、语义和论元结构类型三个方面对复合动趋结构进行分类描写,并基于语言学分析结果和计算实现知识对动趋结构的类别特征做出假设。
环节(5)和(6)为计算语言编写,包括将假设编码和编译语法。使用类别描述语言(Type Description Language,TDL)对语言学假设进行形式化描写,描写内容包括丰富词库和创建(或修改)句法规则。
环节(7)至(9)为计算实现环节,包括扩展测试套件、单句剖析和批量剖析。在计算实现环节,我们使用“问答约束引擎”(Answer Constraint Engine,ACE)读取ZHONG 2021的各类语法描写文件,完成对复合动趋结构的句法剖析。拓展的测试套件有两个:复合动趋结构专门测试套件和大规模测试套件。前者测试编译语法对复合动趋结构的剖析准确率,后者测试编译语法对整个自然语料的剖析成功率。
研究重点主要有:1)提出趋向动词的句法语义判断标准,并明确趋向动词的范围,即12个简单趋向动词和15个复合趋向动词;2)根据语义,将动趋结构分为“空间义、时间义、状态义、主观义”;3)结合句法关系,将动趋结构分为动补式(又分为动趋式、准动趋式、动结式)和非动补式(又分为动态式、特殊式);4)根据结构内部成分的价和语义指向,进一步将复合动趋结构分为15个小类,并提出类别特征分类假设;5)根据复合动趋结构的类别特征分类假设,完成了复合动趋结构的计算实现。
研究具有理论和实践意义。1)理论意义。深化了对汉语动趋结构的句法语义分析,对动趋结构的教学具有借鉴意义;动趋结构的GE研究流程可为后续其他结构的深层自然语言处理提供参考。2)实践意义。该研究不仅扩充了ZHONG2021的动词库,还完善了ZHONG 2021的句法规则。测试套件结果显示,在语法编译前后,系统对三个测试套件(分别是:首批测试套件、专门测试套件和大规模测试套件)剖析的成功率均有提升。研究还佐证了基于规则的深层自然语言处理在理论和实践层面具有可行性和发展前景。