关键词:
支持向量学习机
机器学习方法
分子描述符
变量筛选
训练集设计
二氢叶酸还原酶抑制剂
摘要:
本论文研究了机器学习方法在化合物的药物活性上,进行分类预测的应用。全文包括两个章节,第一章,叙述了支持向量学习机分类方法以及其它几种机器学习方法,用于分类建模的理论基础;第二章,主要是对方法的实际应用型研究,即机器学习分类方法在二氢叶酸还原酶抑制剂药物的活性分类预测中的运用。
在第一章中,首先对计算机辅助药物分子设计的发展背景及研究概况进行了介绍,并详细阐述了支持向量学习机、人工神经网络,调节性逻辑回归,和K-最临近等机器学习方法的理论基础;对在建模初期,分子几何结构的优化及相关软件进行了说明;概述了用来描述分子物理及化学性质的描述符的定义、名称以及分类;对用于训练集设计的Random Selection算法、Kohonen self-organising maps算法和Kennard-Stone算法,以及用于变量筛选的Metropolis Monte Carlo模拟退火方法和遗传算法进行了阐述;最后就模型好坏的评价标准进行了说明。
第二章主要是用机器学习方法对二氢叶酸还原酶抑制剂,进行了药物活性的分类预测。首先对已知活性的761个二氢叶酸还原酶抑制剂分子结构进行几何构型优化,在此结构基础上,计算了463个组成描述符和拓扑描述符,以此来表征化合物分子的物理及化学特征。在训练集设计时,使用了Kennard-Stone方法和Random方法,对其基础上建立模型的分类结果进行了比较,说明Kennard-Stone方法更适宜于构建模型。因此,在比较建模的机器学习方法时,就只使用了Kennard-Stone方法进行训练集的设计,构造好训练集以及测试集用于建模,并使用预测正确率来评估模型的预测能力。对于支持向量学习机、人工神经网络,调节性逻辑回归,和K-最临近等机器学习方法所建模型的预测结果进行对比,评定支持向量学习机建立的模型最优,有较好的预测结果,其总体预测正确率为89.01%。在此基础上,经过标准化和进行Metropolis Monte Carlo模拟退火算法的变量筛选,对描述符进一步处理,最终筛选出158个对预测结果影响较大的描述符。最终建立的模型的预测结果进一步得到改善,其总体预测正确率提高到了91.62%。说明了通过合适的训练集设计及变量选择,支持向量学习机方法可很好地用于二氢叶酸还原酶抑制剂的活性分类预测。
在二氢叶酸还原酶抑制剂的活性分类预测上,有较好结果的支持向量学习机方法,可通过训练集的设计和变量选择来改善模型。通过使用Kennard-Stone方法进行训练集的设计以及Metropolis Monte Carlo模拟退火方法进行变量筛选,可以有效的减少噪音变量,简化模型,使得模型得到优化,预测结果得到较为明显的提高。