关键词:
特征提取
深度学习
随机游走算法
矩阵补全算法
人类微生物—疾病关联关系预测
摘要:
进入21世纪,人类对疾病的预防及有效诊疗的追求日益迫切。科学家相继开展了人类基因组计划和人类微生物组计划。大量的实验及临床研究表明,许多疾病与人体内微生物菌群的变化有关。后基因组时代产生了海量蛋白质序列,且其数量呈爆炸式增长。然而,通过实验方式鉴定蛋白质功能和挖掘疾病和微生物菌群关系无法满足人类对快速挖掘相关信息的要求。开发先进高效的计算方法辅助实验技术、建立蛋白质功能的分析模型、鉴定未知蛋白功能、建立新型人类微生物—疾病关联关系预测模型势在必行。近年来,伴随人工智能、机器学习、数据挖掘理论的飞速发展以及计算机算力的提高,在国家“精准医学”战略的指引下,医学数据挖掘工作得以迅猛发展,成为一个研究热点。虽然计算生物学在蛋白质序列比对和人类微生物—疾病关联关系预测等相关问题的研究在过去十多年中取得了较多研究成果,但在特征提取、分类方法及关联分析方面仍可进一步研究。基于数据挖掘理论和机器学习理论,本学位论文研究了蛋白质序列相似性、治疗性多肽识别和人类微生物—疾病关联关系预测相关问题,具体研究工作概述如下:(1)目前对于未知蛋白质序列的功能研究已取得了一些研究结果,但对蛋白质序列的动态特征和非线性特征的研究相对较少。本研究基于氨基酸密码子计算了氨基酸的谱半径,并基于此谱半径提出了一类新型的蛋白质序列图形表示方法。利用氨基酸谱半径,提取了一组反映静态和动态特性的蛋白质序列特征,并采用高斯核相似度和余弦相似度刻画了蛋白质序列的相似程度。该模型有助于进行序列相似性和进化关系分析从而获得未知序列的功能,并有助于识别潜在的药物靶标、深入了解疾病的潜在分子机制。(2)抗癌肽(Anticancer peptide,ACP)作为一类新型癌症治疗方法,因其副作用小,有望成为各种肿瘤疾病的最佳治疗方案。现有的治疗性多肽识别算法其性能强烈依赖于特征提取的优劣,有鉴于此,本研究基于深度学习理论和Word2vec方法构建了治疗性多肽识别算法。为表征肽序列,首先将肽链加窗拆分为k-mer,利用Word2vec模型获得k-mer的嵌入表示。基于此嵌入矢量,将用于训练的肽链样本经加窗获得的k-mer送入输入层,然后利用多个卷积核实现特征映射。为避免过度拟合并提高模型泛化能力,采用了丢弃和最大池化操作。最后通过全连接层利用Sigmoid函数产生属于特定肽的概率。为验证模型的有效性,采用两个独立数据集验证模型预测ACP和毒性蛋白的能力,与现有方法相比,所提出方法的性能优于其他现有方法。研究证实,所提出的计算模型有助于鉴定和设计新型治疗性多肽,并有望扩展到其他基于肽序列的预测。(3)挖掘致病微生物菌群对预防和治疗疾病将极有帮助,有望通过改善人体微生物生态从而达到治疗疾病的作用。为辅助实验,本论文提出了一类计算模型以挖掘微生物与疾病之间的关联关系。首先,构建了微生物—疾病的异构网络;其次,提出扩展的随机游走算法获得微生物—疾病的关联概率;最后,通过粒子群优化算法计算出模型的最佳参数。为验证模型有效性,本论文做了交叉验证和典型疾病案例分析,通过与现有方法比较,证实了该模型的强大预测能力。研究结果表明,所提出的计算方法将能有效识别与疾病相关的微生物,并有助于揭示微生物与其人类宿主之间的关系。(4)在研究微生物—疾病关联关系时,仅靠一个数据库的信息相对较少。鉴于此,本研究融合了基于症状的疾病特征,分别通过不同的计算方式描述疾病和微生物,然后利用已知微生物—疾病关联关系作为监督训练矩阵补全算法,经过逐步迭代,最终获得计算疾病与微生物相关联的方法。交叉验证和案例分析的结果都显示了所提出方法的有效性。本论文提出的计算模型将有助于识别新型微生物—疾病关联关系,阐明微生物疗法潜在机制,从而对药品和保健食品的开发起到指导作用。综上,本学位论文基于氨基酸密码子计算了其谱半径,提取了一组包含静态、动态信息的特征,并将其用于计算蛋白质序列相似性分析;基于Word2vec和深度学习理论构建了治疗性多肽识别模型;提出了一类基于粒子群优化随机游走异构网络的人类微生物—疾病的关联预测模型;在已知关联监督下利用矩阵补全算法构建人类微生物—疾病关联预测模型。本学位论文提出的各种计算模型将有助于挖掘蛋白质序列的功能,辅助科学家挖掘人类疾病微生物的关联关系,从而有助于提高人类对疾病的尽早发现疾病从而尽早接受治疗,提高全民健康水平和生活质量,同时可促进新药特药的研发。