关键词:
一带一路
话题建模
SpaCy
语料库
计算机语言学
摘要:
2013年9月,中华人民共和国主席习近平首次提出了“一带一路”倡议,这是全球最大的基础设施和贸易项目,涉及119个国家,覆盖率约占全世界人口的60%,其计划到2050年实施7000个基础设施项目。“一带一路”倡议的目的是通过创建和连接基础设施、贸易、金融和政治等方面,建立一个新的国际合作平台,因此也致力于加强世界各地人民之间的文化交流。从中国提出“一带一路”倡议以后,在世界范围内,人们对这个基础设施项目既有善意的看法,也有怀疑的态度,西方媒体和政府圈子尤其对该倡议进行了有争议的讨论。有一种观点认为,中华人民共和国近几十年来的迅速崛起并不代表机会,而是一种威胁,实施一带一路代表着中国在全球范围内的权力诉求,其目的是重新规划中亚和欧洲的权力平衡,使之有利于中国,这种观点和声音在政治层面上越来越强。因此,延伸至欧洲和德国的“金砖”基础设施项目也成为德国联邦议院辩论的一个话题。德国联邦议院作为德意志联邦共和国的宪法机构,在会议上处理立法、动议和与政府有关的程序,并就金融、安全和能源政策等领域的外交和国内政策进行辩论。自1949年以来,议会辩论的过程由联邦政府速记处记录,并写成演讲稿,世界公众可以在联邦议院网站的在线档案中查阅。这些会议记录是对会议进程的真实的再现,也被视为“国家的记忆”,近几年和近几十年的政治事件、政治讨论和辩论因此也提供了一个从语言和文化的角度通过时间线观察相应变化的机会。本论文的目的和宗旨是,通过计算机语言学程序,从语言的使用方面分析联邦议院关于“一带一路”倡议的会议和辩论内容。从而确定哪些关于中国和一带一路基础设施项目的话题在联邦议院中被实际辩论,以及中国和BRI在哪些背景下被带入。为此,我们将首先界定有关金砖国际议题的相关关键词,并确定缩小语料库的时间框架,即以金砖国际的宣布日期为基础。在这些划定标准和联邦议院的议会材料文件和信息系统(DIP)的帮助下,从联邦议院档案馆的网站上自动下载预选的相关数据,从而建立一个初步的文件语料库。为了对语料库进行分析,本论文首先对数据进行筛选,然后在一个程序中进行处理和清理。文本文件被转换为机器可读的数据,数据清理所需的程序是用Python编程语言独立编写的,以便能够在某些情况下使清理过程适应语料库的具体条件。为此,文本数据被读入SpaCy并进行处理。在WordCloud的帮助下,整个语料库被可视化。在SpaCy的帮助下,文本数据被处理成两个主要的数据清理程序。首先,检查文本中的停顿词和错误的元素。为了做到这一点,文本被分类,并被归入文件类型和文档类型等。将语料库中特定的停顿词和与格式有关的元素清理出来后,再对这些词进行词组化处理。本论文用于处理语料库的方法是定量-定性的内容分析。由于语料库中的数据量很大,首先使用定量的数据分析方法。之后再进行定性分析,分析其中的基本含义。由于文本不是中立和客观的肯定,而是以目的和目标为导向,所以用定量方法获得的数据要在其背景下进行分析。对清理过的文本数据从定量分析过渡到定性分析,要借助于话题建模的机器处理方法。工作中使用的话题建模的概率模型是Latent Dirichlet Allocation(LDA),这是一个生成和统计概率模型。LDA假设每个文档中的词是由几个潜在的主题组合产生的,主题和词的选择由一组参数决定,这些参数决定了主题和词的整体分布。一旦主题和词的分布被估计出来,LDA就可以用来根据文件中每个主题的概率将每个文件分配给一个或多个主题。这带来的潜在内容可以回答文本分析的“为什么”问题,使定性内容分析成为可能。由于数据量大,近距离阅读的方法对于定性的内容分析是不可行的,用远距离阅读的方法(这里指:主题建模)对数据进行明确的解释也不可行。混合阅读是远距离阅读和近距离阅读相结合,它提供了通过参考有代表性的单个文本来充分分析主题,并将其置于一个整体背景中的机会。在语境的帮助下,通过主题建模确定的最重要的术语被归入类别和主题领域。对文本中与语境相关的方面的研究形成了对话题的解释和整体语境中的分类,这使得与科学理论的联系和桥梁成为可能,从而完成了论文的分析部分。本论文的分析结果是,通过话题组,可以发现联邦议院的论证倾向贯穿整个语料库。定性分析显示,与预期相反,最普遍的词汇并不包括“中国”或”一带一路倡议”等词汇,从字面上看并没有提到中国和金砖国家。相反,在对待中国方面,显然存在着两极分化,一方面认为中国因其在中亚和非洲的参与而成为一种威胁和负面因素,另一方面又认为她是保护德国商业利益的重要合作伙伴。反对该项目(东盟)和对中国价值观的反复批评贬低了中国做出的承诺,对自己的投资项目带来了便利。相反的是,比如经合组织(OECD)对“一带一路”倡议的积极评价。