关键词:
机器学习
有机化学品
致癌性
内分泌干扰性
分子动力学
摘要:
越来越多的化学品在全球范围内工业化生产,包括药物、杀虫剂和化妆品等。截至2023年12月,美国化学会下设组织Chemical Abstracts Service(简称CAS)上已登记注册物质超过2.79亿。化学品的大量存在不可避免地增加了其对生态环境与人体健康的不利影响。大量持久性、生物蓄积性和毒性(PBT)物质通过废水排放和废气排放等途径进入各环境介质中。中国生态环境部、美国生态环境保护署和欧洲环境署等国家环境保护机构正面临评估化学品的健康危害和环境影响的挑战,故寻找高效可靠的化学品毒性评估方法迫在眉睫。
本文通过中华人民共和国应急管理部(原中国国家安全监管总局)发布的《危险化学品目录(2015版)》、美国致癌数据库、欧盟致癌数据库、世界卫生组织致癌数据库、《全球化学品统一分类和标签制度》,以及随机森林(RF)、逻辑回归(LR)、支持向量机(SVM)、补集朴素贝叶斯(CNB)、最近邻分类(KNN)、极致梯度提升树(XGBoost)、神经网络(NN)等7种机器学习算法构建并应用有机化学品致癌性机器学习三分类模型,揭示以苯系物、烯烃、含氯化合物和胺类化合物等典型有机化学品致癌性与电子参数、结构参数、理化参数及拓扑参数等关键分子描述符的重要程度;利用The Endocrine Disruption Exchange(TEDX)识别萘、苯并芘、己烯雌酚、硝基苯和炔诺酮等典型内分泌干扰物,其次利用递归消除法(RFE)、RF等方法构建EDCs分类识别模型及内分泌干扰毒性回归模型,辅以欧盟内分泌干扰物质(Endocrine Disrupting Chemicals,EDCs)清单与DEDu CT数据库验证EDCs分类识别模型的普适性,SHAP与Captum可解释模型将EDCs分类识别模型及内分泌干扰毒性回归模型可视化;此外,采用XGBoost、皮尔逊相关系数等方法构建EDCs致突变性、潜在发育毒性等其它毒性预测模型,揭示EDCs内分泌干扰毒性、致癌性、致突变性、潜在发育毒性等毒性间的相关性。
有机化学品致癌性研究结果表明,RF、LR、XGBoost、NN模型的评价指标符合要求,经由美国致癌数据库、欧盟致癌数据库、世界卫生组织致癌数据库验证后,筛选出RF和XGBoost模型为最优模型,其对有机化学品致癌性(2类致癌物)预测准确性高达90%,表现出较强的模型分类能力。以XGBoost模型为例,通过对预测出现误差的有机化学品分子结构分析发现,当有机化学品分子结构中仅包含氯官能团时,模型预测类别多为较弱致癌性(2类致癌物);但与苯环等共存时,模型预测类别多为较强致癌性(1A或1B)。因此,构建有机化学品致癌性预测模型时应重点考虑分子结构中的官能团特征。
有机化学品内分泌干扰性研究结果表明,有机化学品的电子参数、结构参数、理化参数及拓扑参数等分子描述符经RFE筛选关键特征后,最大程度上规避机器学习模型的过拟合现象,EDCs分类识别模型评价指标均高于0.8,将EDCs分类识别模型进一步应用于欧盟EDCs清单和DEDu CT数据库,模型预测结果的评价指标均高于0.75,说明EDCs分类识别模型具有较强的普适性;依据五大类内分泌干扰特性(雌激素效应、孕激素效应、雄激素效应、甲状腺激素效应和其它)对EDCs进一步分类,所构建的EDCs内分泌干扰特性分类模型评价指标均高于0.7,筛选出电负性和分子体积等为影响内分泌干扰特性的重要分子描述符;EDCs内分泌干扰毒性回归模型R2为0.75,其中qed和Fr_bicyclic等分子描述符对内分泌干扰毒性有重要影响;EDCs致突变性、潜在发育毒性等其它毒性预测模型R2均达到0.75,结构特征(TPSA)、官能团数目(卤素数目)和分子量等对EDCs三致作用影响较大,并发现EDCs内分泌干扰毒性和致突变性等存在正相关关系,和大鼠口服LD50等毒性指标存在负相关关系。
本文构建的有机化学品致癌性机器学习三分类模型、内分泌干扰性分类与回归预测模型,可用于后续拟合成化学品致癌性和内分泌干扰性的初步识别判断,为公共健康领域风险因素识别提供工具,以期快速识别和淘汰具有潜在致癌性和内分泌干扰性的有害物质,减少后期的开发风险和成本。同时,本文在一定程度上克服传统有机化学品致癌性和内分泌干扰毒性检测(动物实验)时间长、成本高等问题,为后续有机化学品的管理和防控提供一定的科学依据,并对有机化学品管制政策的制定提供理论参考。