关键词:
二氧化碳
噁唑啉酮
有机合成
产率预测
机器学习
摘要:
温室气体减排成为时代主题之一,对二氧化碳的化学利用迫在眉睫。将二氧化碳作为合成子,以烯丙胺和自由基前体作为底物,合成高附加值的噁唑啉酮是二氧化碳利用领域中具有重要潜力的研究方向。
另一方面,传统的有机合成通过大量的试验以开发高效的合成方法,具有物质资源消耗大、人力成本高、可能存在危险性等不足。近年来,人工智能技术特别是机器学习算法的不断发展,通过机器学习模型从过去积累的数据中挖掘规律,以预测趋势,成为了各行各业关注的焦点。将机器学习应用于有机合成化学之中,通过机器学习挖掘其中的规律,可减少试验次数,将在一定程度上克服上述缺点,并为有机合成研究提供新的范式。预测产率所需的反应数据往往来源于高通量化学反应或有机合成机器,其数据具有反应类型单一且样本量大的优势。然而,传统实验室对特定类型有机合成方法开发积累的实验数据往往数量较少,且反应包含的各种特征信息没有被完整记录,不利于机器学习算法的应用。
针对这些问题,本研究拟探索一套建模框架,旨在针对传统实验室积累的有机合成实验数据,以机器学习方法挖掘反应规律,用以辅助合成方法的优化。具体而言,本研究将机器学习应用于二氧化碳参与的烯丙胺选择性氧烷基化合成噁唑啉酮的产率预测研究中,对产率预测方式进行探索(回归和分类模型),对多种模型之间进行比较,对模型超参数进行优化,以达到最优的预测表现。然而,在本研究中,需要克服多种困难,例如:对噁唑啉酮合成的反应信息的采集和对特征的提取目前还没有成熟的方法;此外,该类反应的样本量较小,不利于对模型的构建。针对这些问题,本研究所使用的数据集既有来自发表文献的公开报道,又有来自实验记录的相应的试验,以补充数据集的分布,特别是低产率的反应。在经过整理之后,我们获得424个反应样本,并基于分子描述符、物化性质、反应条件和量子化学计算来提取特征,共计116维。相比于传统仅对训练集和测试集进行一次随机划分,本研究对所有建模预测所用样本皆进行随机100次划分,以指标的平均值对模型预测进行评价,以避免因样本量较少而导致的偏差。结果显示,产率预测回归模型的决定系数R2平均值为0.48;高低反应性分类模型可以取得良好的表现(ROC曲线下面积AUC平均值为0.88)。在这两类预测模型中,XGBoost模型都表现出了对该数据集的最好的适用性,而随机森林模型的表现次之。
综上,通过本研究我们发现,即使在样本量较少和反应机制存在些许差别的有机合成反应类型中,通过上述反应特征提取方式建立多维化学反应空间,合适的算法模型依然能够较好地挖掘该反应空间同产率的定性关系,且集成学习模型XGBoost和随机森林明显优于线性模型的预测能力,这为更进一步地构建准确的有机合成产率预测模型打下了基础。