关键词:
机器学习
钙钛矿材料
可解释性
模型优化
置信函数软分类
摘要:
作为材料界冉冉新星的钙钛矿材料,其在探测器、发光器件、太阳能电池等领域具有广泛应用,尤其是柔性印刷钙钛矿太阳能电池的出现,为可移动穿戴设备和移动手持设备提供了更多的电源选择空间,然而稳定性和铅毒性依旧是制约其规模化应用的最大阻碍。卤化物双钙钛矿作为有效的解决方案得到越来越多的关注。相较于传统ABX3型钙钛矿材料,无机双卤化物钙钛矿材料在稳定性方面比其他钙钛矿材料具有优异的表现,具有广阔的应用前景。无机双钙钛矿材料的大数据挖掘理念,在提升材料筛选效率、性能预测准确度的同时,也对传统的机器学习方法提出更高的要求。传统的实验试错法、密度泛函理论(DFT)计算等方法存在耗时耗力局限性,在指导钙钛矿材料上的设计上存在明显不足,而以机器学习为代表的数据驱动方法,其更加灵活且成本更低,逐渐成为发现新材料的必由之路,为钙钛矿材料的研发设计提供了新的思路和方法。因此,通过材料大数据和机器学习相结合,一方面找到拥有合适带隙且稳定的无机双钙钛矿卤化物材料,另一方面通过探索影响材料特性的关键特征,可有效促进材料发现与设计进程。
目前基于机器学习的钙钛矿材料研究,主要涉及带隙、热力学稳定性、形成能等预测,以此进行的材料筛选直接依赖于所采用机器学习模型的直接预测结果,然而基于双钙钛矿卤化物小数据样本建立的机器学习模型,对训练集中未包含组分的新钙钛矿材料的预测结果有较大不确定性,同时目前仍缺乏基于具体应用的双钙钛矿卤化物高效筛选与设计方法。鉴于此,本课题依托材料基因工程,运用机器学习模型融合优化策略、多目标优化方法以及置信函数理论等方法,研究了应用于双钙钛矿卤化物性能预测过程中的机器学习模型的模型可解释性问题,模型融合问题以及不确定性钙钛矿材料数据的分类问题,具体包括以下几个方面的研究内容:
(1)针对现有机器学习模型的可解释性差问题,提出了融合SHAP和符号回归相结合的机器学习分类模型,直接揭示应用于预测双钙钛矿材料性能的机器学习模型的输入特征与输出性能之间的内在关系。通过该方法,发现了能有效筛选具有热力学稳定性的表达式,解决了基于数据驱动的机器学习模型的可解释性差问题。借助遗传方法(GA)来获取表达式的最优阈值,并通过该表达式应用到Material Project中的双钙钛矿卤化物数据集进行验证,分类准确度可达83.51%。
(2)针对单机器学习模型的预测精度不足问题,通过实验对比不同融合方法对钙钛矿材料带隙回归预测性能,得出Stacking融合方法具有更好的性能,但无法直接确定构成Stacking模型的多个单模型对预测性能是否有积极作用,因此仍需要通过合适的优化方法来获取最优的Stacking融合模型。受启发于递归特征消除(RFE)思想,提出了基于递归模型消除(RME)的Stacking模型优化策略,并结合动态综合评估指标(DSI)来筛选出最优的Stacking融合模型。基于RME的Stacking模型优化策略虽实现简单方便,却容易陷入局部最优,进而提出了基于快速非支配排序遗传算法(NSGA-II)与Stacking相结合的机器学习模型优化策略,其通过同时考虑多个评估指标来获取全局最优模型。实验结果表明,基于NSGA-II优化得到的最优Stacking融合模型,其预测性能比优化之前模型有提升。
(3)针对传统机器学习分类模型的硬分类方法,无法有效处理复杂样本归属的不确定性问题,依托置信函数理论来实现不确定数据的软分类,提出了基于遗传算法优化核密度估计及特征证据融合的加权分类模型。该模型属于无参数分类器,其将不同特征视为支持样本类别归属问题的多元证据,通过遗传算法实现自适应选择核函数和带宽的核密度估计方法来量化证据信息。同时引入Dempster-Shafer证据理论(D-S理论)进行特征证据融合,再根据融合后得到的基本信度分配函数,配以类别数为长度的权重因子向量进行加权。本文所构建的模型分别在多个公共数据集和钙钛矿数据集上进行验证,并与其他模型的分类性能进行对比,进一步证明了该分类方法可有效提升在训练集中存在组分缺失的双钙钛矿材料的软分类精度问题。
本文工作不仅提升了机器学习模型的可解释性,还通过有效策略优化机器学习模型,提升了模型预测性能。此外,还提出了置信函数理论的加权分类模型,用于解决传统机器学习分类模型对于不确定样本进行分类困难问题,并将上述三项主要工作应用到钙钛矿材料领域研究,为有效筛选与分类钙钛矿材料提供了一种新的研究思路与方法。