关键词:
丙型肝炎病毒NS3/4A蛋白酶抑制剂
丙型肝炎病毒NS5A蛋白抑制剂
野生型与突变型蛋白抑制剂
定量构效关系模型
机器学习
摘要:
丙型肝炎由丙型肝炎病毒(HCV)感染引起。HCV感染者有很高的风险发展为严重肝病,包括肝硬化和肝纤维化等,而这些严重肝病通常会导致肝细胞癌。据世界卫生组织统计,全球的HCV感染者超过7000万人,且每年在以125万人的数量增加。目前还没有有效对抗HCV的疫苗,且近年来HCV的多基因型与多突变型,使得HCV感染的治疗愈加困难。本论文主要采用计算机辅助药物设计的研究方法,以丙型肝炎病毒NS3/4A蛋白酶和NS5A蛋白这两个成药靶点为研究重点,利用化学信息学和机器学习的方法进行抑制剂的活性预测和抑制剂的虚拟筛选研究,利用分子动力学模拟方法进行抑制剂对突变型蛋白的耐药性机理研究,取得了较好的预测效果。此外,利用化学信息学和机器学习的方法对抗炎靶标环氧合酶-2建立了生物活性高低分类模型,取得了较好的分类效果。论文主要研究内容为:(1)使用多元线性回归、支持向量机和随机森林算法构建了 HCV NS3/4A蛋白酶抑制剂的定量构效关系模型。收集512个抑制剂及生物活性IC50值构建数据集,计算每个分子的CORINA全局描述符和二维自相关描述符,使用多元线性回归(MLR)、支持向量机(SVM)和随机森林(RF)三种机器学习方法建立模型。最优SVM模型ModelD4对测试集的预测决定系数(r2)为0.843、标准误差(SEE)为0.647;最优RF模型ModelC6对测试集的预测r2为0.847、SEE为0.635。对两个最优模型的应用域分析,得知其对训练集和测试集抑制剂的覆盖率均大于97%,说明模型的预测结果可信。此后,将数据集拆分成非大环抑制剂子数据集和大环抑制剂子数据集,使用相同的流程基于子数据集建立模型。结果显示出所有的子模型的预测效果均优于总模型。最终得到两组模型可作为有力的虚拟筛选工具:即SVM总模型ModelD4、非大环抑制剂子模型ModelLB2和大环抑制剂子模型ModelMD2;RF总模型ModelC6、非大环抑制剂子模型ModelLB3和大环抑制剂子模型ModelMD3。通过对模型所用分子描述符的分析,我们得知π原子电荷、孤对电子的原子电负性是较为重要的理化性质,可旋转键个数是连接非大环抑制剂和大环抑制剂之间的桥梁。(2)使用定量构效关系模型方法和三维形状与静电相似性比对方法进行了 HCV NS3/4A蛋白酶抑制剂的虚拟筛选。筛选了 Specs数据库和ChemDiv数据库,两数据库总计超过1 81万个小分子。使用两种方法平行对数据库进行虚拟筛选,第一种方法是使用定量构效关系模型预测的方法,通过之前建立的三个SVM模型对数据库中所有分子的生物活性IC50值进行预测,最终得到367个平均预测活性IC50低于100 nM的非大环分子;第二种方法是基于配体化合物的三维形状与静电相似性比对的方法,将上市药物对应的晶体结构中的配体构象作为模版分子构象,找出数据库中与模版分子构象在三维形状、化学基团和静电相似性之和较高的分子,最终得到相似性指数高于1.2的119个非大环分子和22个大环分子。两种筛选方法共筛选得到508个分子。随后,对这508个分子的进行结构聚类,仅保留每个聚类中心预测活性最高的85个分子。通过手动分类,将85个分子根据它们的分子骨架划分为13类,保留了每类骨架中预测活性最高的分子作为候选分子。最后,通过分子对接、分子动力学模拟、结合自由能计算和结合模式分析,进一步对虚拟筛选结果进行验证,得到3个可以与NS3/4A蛋白酶具有较强相互作用的候选分子,它们可用于进一步研究。(3)使用比较分子力场分析(CoMFA)方法和比较分子相似性指数分析(CoMSIA)方法构建了 HCVNS5A蛋白吲哚四环类抑制剂对野生型与突变型蛋白活性的三维定量构效关系模型。收集了 196个吲哚四环类抑制剂以及它们的三组生物活性,即野生型GT-1a、突变型GT-1a Y93H和突变型GT-1a L31V的EC90值构成三组数据集。使用OMEGA程序对每个抑制剂生成了 600个构象,并使用ROCS进行分子叠合。使用CoMFA和CoMSIA方法分别建立模型。在建模过程中,我们定义了四个参数选择规则和一个过训练评价公式来选择最佳参数。对于三组数据集GT-1a、GT-1a Y93H和GT-1a L31V,最优模型的测试集预测决定系数(r2)分别为0.682、0.779 和 0.782,标准误差(SEE)分别为 0.418、0.608和0.560。通过对最优模型的等势图分析,总结出在药物艾尔巴韦(elbasvir)分子Z基团对位引入一个相对较小、非负电、疏水、无氢键受体的基团,将Z基团的苯环替换为杂环,在四环核心基团上引入体积较小的吸电子取代基,在缬氨酸的异丙基中引入氢键受体且不要替换为体积过大的基团,在脯氨酸中引入疏水性基团且不要引入氢键受体和负电基团可以同时提高