关键词:
古代汉语
句法树库
句法分析器
.Net多层架构
摘要:
中国悠久辉煌的历史,孕育了中华深厚文化内涵,而古代汉语作为传承中国文化的主要载体,是学习、研究中华灿烂历史文明中不可忽视的重要媒介。得益于信息技术的蓬勃发展和在语言学领域的积极应用,语言学研究也迎来了新的时期。但在信息科学日新月异的同时,古代汉语的信息处理研究却明显滞后。 句法体系及其分析是自然语言处理领域的一个难点,在自然语言理解、自然语言生成、机器翻译等应用领域均有着重要的研究价值。同时,句法也是语言习得的重中之重。目前自动句法分析所得到的数据结构虽然便于机器读解,但对于人来说,难免晦涩难懂。 本文调查研究了当前中文信息处理领域句法分析的研究现状,评价了各句法体系的优缺点及可靠性,以黎锦熙先生在《新著国语文法》中提出的“句本位”句法体系为蓝本,以面向古代汉语的句本位句法体系机器自动分析为目的,欲探索一种新的中文信息处理句法体系理论框架。句本位图解法可以清晰体现句子结构这一优势,将为古代汉语研究者提供一种理清文义的便捷手段。句本位句法应用于古代汉语的研究,无论是对于推进中文信息处理领域句法分析的发展,还是对于为古代汉语学习及研究者提供一种有助于古代汉语习得、品味的途径,未尝不是一种崭新的思路。 本文主要包括古代汉语句本位句法体系的设计和句法树库的建立(资源篇,第2-3节)、自动句法分析的研究(理论篇,第4节)及句法分析器的开发(应用篇,第5节)三个方面的内容,是从语料处理到核心理论研究,再到应用实现的一整套系统化过程。 1.体系的设计和句法树库的建立 选取中国台湾中央研究院《论语》标注语料库为研究对象,对其进行切句、词性抽象化等预处理,并对句子进行句本位句法树人工标注,建立句本位句法树库;2.自动句法分析研究 采用分词、词性标注后,通过词性序列与句法结构匹配,对分词、词性标注结果进行优选的方法进行句法分析;3.句法分析器的开发 采用.Net多层架构设计,在Microsoft Visual Studio2010平台上进行开发,以图解的方式生成输入语句的句法树。在《论语》的封闭语料内以及与《论语》语言特征类似的语句上进行测试,结果是令人满意的。