关键词:
二氧化碳
有机合成
产率预测
机器学习
发光材料
光学性能
摘要:
温室气体减排成为时代主题之一,对二氧化碳的化学利用迫在眉睫。将二氧化碳作为碳一合成子,通过C-H键的羰基化反应实现一系列有价值的杂环化合物是二氧化碳利用领域中的重要研究方向;另一方面,传统的有机合成的开发需要大量的实验去验证,耗时耗力,而且可能存在危险性等问题,而通过机器学习模型可以从过去积累的数据中挖掘出规律、预测其趋势,不仅省时省力,还能有效降低对化学专业知识人才的依赖。本论文针对化学实验室积累的一系列二氧化碳作为羰基源参与的杂环化合物的合成的研究,通过探索一套建模框架,以机器学习方法挖掘反应规律建立相关反应收率预测体系,并以之辅助材料的合成。具体有以下两方面的内容。一、机器学习应用于二氧化碳作为羰基源参与的杂环化合物的合成产率的预测。本部分主要对产率预测进行探索(回归和分类模型),同时对多种模型之间进行比较,对模型超参数进行优化。此外针对1.杂环类化合物合成的反应信息的采集和对特征的提取目前还没有成熟的方法;2.该类反应的样本量较小,不利于对模型的构建等问题,本研究也做了相关的处理,如所使用的数据集既有来自发表文献的公开报道,又有来自实验记录的相应的试验,以补充数据集的分布,特别是低产率的反应。最终研究收集192个反应样本,并基于分子描述符、Rdkit工具包来提取分子特征,共计1837维和由独热编码计算特征2048维。另外相较于传统仅对训练集和测试集进行一次随机划分,本研究对所有建模预测所用样本皆进行随机100次划分,通过预测指标的平均值来衡量模型结果。结果显示,产率预测回归模型的决定系数R最大值为0.43。在两类预测模型中,支持向量机模型都表现出了对该数据集的最好的适用性,而随机森林模型的表现次之。二、在建立预测模型后,设计了一类发光材料分子,并通过预测模型预测了反应的收率的同时,也在实验中对预测结果进行了对比,同时也对合成的材料分子进行了光学性能的表征(包括结构表征、吸收光谱、发射光谱等),从吸收发射结果来看,该分子有一定的光学性能,有可能在未来的发光器件中得到应用。通过本研究发现,反应机制有所差异的有机合成反应类型中,以上述反应来提取数据特征的方式建立n维化学反应空间,用适合的算法模型依然能够较好地挖掘该类反应产率的定性关系,为以后对有机合成产率预测模型的构建和训练打下了良好的基础。