关键词:
HNC语境理论
美国媒体
涉华报道
倾向性分析
语境框架
领域词典
情感词典
摘要:
倾向性分析又称观点挖掘,是对附带倾向性特征的文本进行语义处理、意见剖析和情感表达研究的过程,目的是对文本情感的倾向性进行判断。在经济全球化和高科技加速发展的新形势下,世界进入了信息化时代,尤其是随着互联网技术的不断革新与突破,新闻信息以海量的形式呈现在用户面前。新闻报道成为普罗大众探知世界的主要渠道,以美国为代表的西方大国一直在世界上占据舆论垄断地位,受到国际舆论环境、媒介传播机构政治立场、采写者个人倾向等因素的影响,美国媒体在涉华报道中常常传递独立于新闻事实之外的情感倾向。对这些涉华报道的倾向性进行分析和研究在中国国家形象构建、网络环境舆情监测等领域有着重要意义。本研究以HNC(Hierarchical Network of Concepts,概念层次网络)语境理论为基础,在英语领域词典和情感词典的构建基础上,以主题句群抽取和语境框架生成为重点,针对美国媒体涉华报道的篇章特点设计倾向性分析模型。本文的研究工作主要包括以下四个方面:一是英语领域词典和情感词典构建。以HNC理论的领域分类方法为基础,结合现有国际通用分类法中的领域分类标准对美国媒体涉华报道新闻语料进行类别标准设定,并通过对现有HNC汉语领域基础词集绑定的方式形成HNC英语领域基础词集,通过词向量工具Word2Vec将捆绑完成的基础词作为种子词集,以相似度作为引用指标对基础词进行概念延伸和拓展,形成延伸词集列表。利用Word Net的同义词集Syn Set对绑定完成的英语基础词集周边必要未登录词进行遍历查询,对基础词集进行同语种内同义词扩充,形成HNC英语领域补全词集,并通过简化现有HNC符号标注的方法对HNC英语领域补全词集进行符号标注,形成完整的HNC英语领域词典;HNC情感词典的构建方法类同于领域词典构建,通过对HNC概念网络“713”行情感词、“43”行情感词和属性表达“u”类情感词以及情感附加词进行汉英对应语捆绑的方式完成构建。二是领域识别多层文本分类器设计。对采集到的用于模型训练和分类测试的01-08领域部分美国媒体涉华报道进行人工领域分类,以领域词典作为附加特征向量进行分类器模型训练形成分类规则,并对文本分类器的分类效果进行测试。实验表明,多层分类器中下层分类效果受到上层分类的影响,领域分类效果较好的父领域在进行子领域分类过程中也有较好的分类实现性能。三是美国媒体涉华报道篇章语料库和HNC语境框架知识库构建。美国媒体涉华报道篇章语料库主要利用现有Lexis Nexis数据库资源采集原始篇章语料,结合建库目标对语料库的规模进行词次和篇章数量层面的设计,并通过语料组织与命名、语料清理和语料标注三个步骤完成语料整理工作;HNC语境框架知识库的构建主要涉及两方面的工作,首先是对语境知识的形式化表示方法进行归纳总结,制定知识表示的设计细则,形成统一的框架结构体,其次是根据新闻领域分类标准,严格按照知识表示式的设计原则和语境三要素的搭建要求生成以新闻文本倾向性分析为目标的语境框架知识库。四是倾向性分析模型实现。倾向性分析模型的实现是本研究的最终落脚点,首先通过词频特征实现篇章主题句群提取及语境框架生成,并在此基础上对篇章情感词及抽取出的主题句群语境框架进行加权计算完成新闻文本倾向性判断。结果表明,结合情感词典和语境框架的判断方法表现出更优分析性能,验证了语境因素在倾向性分析过程中的重要性。