关键词:
环境持久性
定量构效关系
机器学习
应用域
摘要:
化学品的环境持久性是影响其环境暴露水平的重要因素。筛选具有环境持久性的化学品,对化学品风险管理具有重要意义。仅通过实验方法获取化学品环境持久性参数,效率低、耗时长且成本昂贵,需要发展高效(高通量、低成本)的模拟预测技术。基于定量构效关系(QSAR)的计算模拟技术,通过建立化学品分子结构特征与其环境行为参数的关联,可有效预测化学品环境持久性参数。本研究使用分子结构描述符结合多种机器学习算法,构建预测化学品快速生物降解性及化学品在四种介质(大气、水体、土壤、沉积物)中降解半减期(t1/2)的QSAR模型,主要内容如下:(1)构建了预测化学品快速生物降解性的QSAR模型。从相关文献和开源软件中搜集得到2043个有机化学品快速生物降解性数据,建立了化学品快速生物降解性数据库。使用12种分子指纹和6种机器学习算法构建了72个预测快速生物降解性的单个模型。分子指纹使用Pa DEL-Descriptor软件计算,机器学习算法包括K近邻、逻辑回归、伯努利朴素贝叶斯、决策树、随机森林、支持向量机。采用十折交叉验证和外部验证评价模型的稳健性和外部预测能力。使用单个模型中表现良好的分子指纹和算法,进一步构建了28个集成模型,并基于分子相似性对最优集成模型进行应用域表征。结果表明,与单个模型相比,集成模型具有更好的拟合能力、稳健性和泛化能力。基于分子相似性,对最优集成模型应用域进行表征,发现设置合适的应用域范围,能显著提高模型泛化能力。(2)构建了预测化学品在四种介质中t1/2的QSAR模型。从相关文献和理化性质手册中搜集了250种有机化学品在四种介质中的t1/2数据,使用Mordred描述符和12种分子指纹,结合多层前馈神经网络算法,分别建立了预测化学品在每种介质中t1/2的单任务(ST)神经网络模型。在此基础上,根据输入模式的不同,构建了两类可同时预测t1/2(大气),t1/2(水体),t1/2(土壤)和t1/2(沉积物)的多任务神经网络模型,分别为单输入多任务(SIMO-MT)模型和多输入多任务(MIMO-MT)模型。结果表明,MT模型预测性能比ST模型更好,可能因为多任务学习在模型构建过程中捕捉到了任务间的关联信息,在模型训练时进行共享,从而提高了每个任务的预测效果。基于分子相似性方法,对MIMO-MT模型应用域进行表征。本研究所构建模型可高效筛查具有环境持久性化学品,为化学品风险评价提供技术支持。