关键词:
医学信息管理
学科知识图谱
COVID-19药物发现
链接预测
摘要:
目的:药物重定位是应对突发性流行疾病爆发的有效药物治疗手段,海量医学数据为药物知识发现提供了坚实的数据基础,而如何有效整合多源异构的医学数据以实现多角度知识挖掘是药物知识发现研究需要攻克的难关。为有效融合多源异构医学数据,本文提出多源数据融合的知识图谱构建框架(Knowledge Graph Construction Framework Based on Multi-source Data,KGCF-MD)。在此框架基础上,融合医学文献和生物知识库构建新冠肺炎知识图谱(COVID-19 Knowledge Graph,Cov KG),并进行COVID-19药物重定位研究,旨在为疾病的前期治疗药物筛选提供信息支持。方法:(1)新冠肺炎知识图谱构建:首先,获取Pub Med数据库医学文献,CTD数据库和Dis Ge Net数据库中化学物质、基因和疾病相关知识关联。其次,对医学文本和知识库结构化数据进行三元组抽取,并为三元组定义属性,即赋予实体类型标签、计算三元组文档频次等。针对已获取的三元组,从实体、关系及属性三方面进行知识过滤,如过滤关系类型、以Me SH词表为标准对呼吸道感染等COVID-19相关疾病实体进行过滤,以获取与COVID-19相关性更高的知识关联。然后,以权威医学词表为标准进行实体对齐,并利用UMLS语义关系规范三元组关系类型,同时融合三元组属性,实现多角度知识融合。最终,利用NEO4J图数据库和My SQL数据库存储融合后的三元组,构建新冠肺炎知识图谱Cov KG,并进行可视化展示。(2)COVID-19药物重定位研究:在Cov KG知识图谱基础上,抽取药物、基因、疾病相关知识关联构建训练数据集,利用Trans E模型、Compl Ex模型、Dist Mult模型和Rotat E模型进行预训练,并使用MRR、Hits@n指标评估模型性能。选取性能最佳的模型进行COVID-19的候选治疗药物预测。同时利用CN、AA、RA和PA四种链接预测算法进行COVID-19的候选治疗药物预测。最终取两种方法药物预测结果的交集作为COVID-19的潜在治疗药物。以Pub Med文献为依据,对COVID-19潜在治疗药物进行分析,挖掘各类药物与COVID-19间的潜在关联。结果:本文构建了包含118,036个医学实体、3,317,978条三元组的新冠肺炎知识图谱Cov KG,共涉及基因、疾病、药物、解剖等9类医学概念,治疗、导致、刺激等34类语义关系及实体标签、文档频次等6种属性。在Cov KG知识图谱基础上,利用图嵌入模型进行药物预测训练,结果显示,Rotat E模型的预测效果最佳(Hits@10=0.49),结合图链接预测算法进行药物预测,最终共发现29种与COVID-19相关的药物,根据药物的药理作用,将29种药物分为酶抑制剂、激素类药物、抗变态反应类药物、不同系统疾病药物和其他药物5类。结论:本文提出融合医学文本和结构化数据的多源数据知识图谱构建框架,旨在为多源异构数据融合提供技术参考。在框架的基础上,以医学词表为标准,对多源异构数据进行知识融合,构建新冠肺炎知识图谱Cov KG,为下游COVID-19相关应用研究打下坚实的数据基础。同时,本文利用Cov KG知识图谱,以COVID-19药物重定位为实证研究,结合图嵌入模型和图链接预测算法进行COVID-19潜在治疗药物预测。药物预测分析表明,利用本文方法进行药物重定位研究具有可行性,可为疾病临床前期药物筛选提供决策支持。