关键词:
生物积累性
定量构效关系
集成学习
多任务学习
应用域
摘要:
化学品的生物积累特性参数值,是进行化学品风险评价和管理的必要数据。然而,基于实验方法测定生物积累特性参数值,存在耗时久、成本高以及需要大量实验动物等问题,难以满足化学品风险管理的需求。定量构效关系(QSAR)是计算毒理学研究的核心内容之一,有望在化学品生物积累特性参数值的高通量获取方面发挥重要作用。本研究建立了生物积累特性实测数据库,采用分子描述符等参数和机器学习算法,构建了预测有机化学品鱼体生物积累参数的QSAR模型,主要内容如下:(1)构建预测有机化学品鱼体生物富集因子(BCF)的集成模型。从相关文献和开源数据库中搜集得到1384个有机化学品在不同种类鱼体的BCF实测值,构建了包含测试鱼种、实验条件和数据来源等信息的鱼体BCF数据库。使用Dragon 6.0软件计算得到的结构描述符和随机森林、支持向量机等机器学习算法,建立了预测鱼体BCF的5种单一模型和11种集成模型,并对最优集成模型进行了应用域表征和机理解释。结果表明,与单一模型相比,集成模型具有更好的拟合能力、稳健性、预测准确性以及更广泛的应用域。使用最优集成模型对《中国现有化学物质清单》(IECSC)中两万多种化学物质的生物积累特性进行了筛查。(2)构建同时预测鱼体BCF和生物放大因子(BMF)的多任务神经网络模型。使用反向传播神经网络、多种分子结构描述符建立了预测有机化学品鱼体BCF和BMF的单任务神经网络模型,在此基础上,构建了两类可同时预测BCF和BMF的多任务神经网络模型,分别为单输入多任务(SIMO-MT)模型和多输入多任务(MIMO-MT)模型。结果表明,相较于单任务模型,大多数多任务模型在预测性能方面有较大改进,这说明BCF和BMF预测之间的确存在关联信息,训练过程中互相学习、相互促进,共同提高了预测效果。同样使用多任务学习技术,MIMO-MT模型的预测能力比SIMO-MT模型更强,因此MIMO-MT模型可能有更大的发展潜力。基于分子相似性方法,对MIMO-MT模型进行了应用域表征,发现设置合适的应用域范围,可以显著提高模型性能。本研究的鱼体生物积累参数预测模型,均依据经济合作发展组织(OECD)提出的《QSAR模型构建和验证导则》规范构建,并进行了严格的模型评价和应用域表征,克服了现有模型缺少误差分析、缺少应用域表征等问题,可为化学品生物积累能力评估提供必要数据,有助于化学品风险评价与管理工作的开展。