关键词:
海洋微塑料
知识图谱
自训练算法
ALBERT
双向长短期记忆网络
条件随机场
摘要:
海洋占据了地球的绝大部分,地球一半以上的氧气都由生活在海洋中的浮游植物所产生,且海洋作为地球食物链不可分割的重要一环,为全球数以亿计的人口提供了赖以生存的食物资源,还有逾千万人依靠海洋渔业和旅游业就业,海洋资源的健康与人类生存息息相关。目前海洋塑料污染虽然危害大,但各国已经在推行积极的措施用以解决相关问题,而海洋微塑料并未引起足够的重视。由于微塑料肉眼无法观测,且不受体积的限制,因此污染范围不仅遍及内地水域、湖泊以及深海,甚至海洋食用品中还能被检测出微塑料污染物的存在,这种难以被察觉的污染对海洋浮游植物以及人类生命健康都造成了无法估量的危害。中共十八大以来,中共中央高度重视海洋强国的建设,更强调了海洋环境健康的重要性和发展智能海洋的必要性,因此采用科学的方法分析海洋微塑料污染能够对海洋生态风险评估起到重要作用。近年来,海洋微塑料污染逐渐引起了各国学者的注意,但相关研究多集中于成分分析与调查研究方面,而且当前针对海洋中微塑料的分析方法并不完善,分析结论也多以新闻、文献等较为离散的信息形式呈现。这种对于待分析区域的调研工作虽然能够直接反映出某地的微塑料详细信息,但耗时耗力,进展缓慢。因此如何将海洋微塑料相关的离散化信息转变为可被直接利用的知识数据成为当前领域亟需解决的问题。知识图谱通过将离散的数据链接起来形成网状知识结构,不仅能够帮助研究者发现数据之间的隐含关系,还可以实现可视化的表达,有助于研究者的进一步分析。基于此,本文将知识图谱与海洋微塑料研究领域相结合,通过模式层与数据层两个方面探究了海洋微塑料知识图谱构建工作,总结如下:(1)针对知识图谱模式层的构建工作,本文进行了本体、实体类型以及关系类型的定义。本体定义中,本文选择中国知网、维普数据、万方数据以及Web Of Science等代表性的文献数据库作为主要数据来源,并获取海洋微塑料相关文献的文本摘要。为高效获取文本中与海洋微塑料相关的实体名称,从而构建海洋微塑料本体,本文提出TF-IDF-PMI方法。首先将摘要分词后选用词频-逆文档概率与点互信息结合的方法进行海洋微塑料相关词汇的频率统计,再将微塑料领域研究专家的理论概述作为重要判断依据来筛选高频词汇,从而生成海洋微塑料本体。通过已定义的本体分支,进一步确定了海洋微塑料相关的实体类型,以及各实体间存在的关系类型。(2)针对知识图谱数据层的构建工作,本文提出SMMNER实体识别模型,对数据集进行海洋微塑料相关实体的识别。由于海洋微塑料预料库规模量较小,为加快模型训练速度,提高模型识别能力,本文提出SMMNER模型,选取轻量级的预处理模型ALBERT进行句子文本的嵌入表示,采用双向长短期记忆网络与条件随机场学习特征表示以及生成实体预测标签。由于人工标注耗时耗力,不利于大量数据的标注,因此本文提出一种基于自训练算法的半监督海洋微塑料实体抽取方法,利用该模型进行知识实体的抽取,构成海洋微塑料知识图谱的数据层。(3)根据模式层与数据层进行海洋微塑料知识图谱的构建,流程分为数据获取阶段、数据处理阶段、知识处理阶段以及图谱可视化及应用阶段。在数据获取阶段中,通过合并翻译后的英文文献与中文文献构成原始数据;在数据处理阶段中,通过数据增强、去重等操作对原始数据进行预处理后生成数据集,并进行命名实体识别处理以及实体间关系定义来获取实体与实体间的关联关系;知识处理阶段将获取的两两实体及其关系组成(头实体-关系-尾实体)形式的三元组,并对重复的头实体或尾实体进行融合操作,最终形成海洋微塑料知识图谱,并选用Neo4j图数据库进行图数据的存储;在图谱可视化及应用阶段中,本文将Flask框架与ECharts工具结合,进行应用平台的搭建以及图谱数据的动态展示。通过构建海洋微塑料知识图谱,能够将离散的信息关联起来,对于海洋微塑料来源分析、政策制定、学术研究等起到关键推动作用,有利于实现海洋生态风险的高效评估及防范。