本技术介绍了一种利用机器学习对钙钛矿氧化物热力学稳定性进行筛选的新方法。该方法首先收集钙钛矿氧化物的原子核外能和形成能数据,随后提取与热力学稳定性密切相关的特征描述符,进而利用这些特征进行热稳定性的预测和筛选。
背景技术
材料基因组的三大要素高通量计算、高通量实验、数据库分别与计算驱动、实验驱动、数据驱动的工作模式相对应。计算驱动模式利用密度泛函理论等方法筛选目标材料,旨在通过较少的计算时间的成本来弥补实验中的巨大的“试错”实验成本;实验驱动模式采用组合的方式并行处理,以量变引发质变,争取在短时间内完成样品的制备和表征;数据驱动模式是材料基因组的核心,材料科学家无需考虑参数相互之间的物理化学意义,可以利用数据挖掘方法直接从数据库里来挖掘有价值的信息,并且在理论指导下将有用的信息转化为可靠的知识,从而能够辅助材料设计和研发。在材料科学领域,数据挖掘的核心在于能够从材料数据库中选挑出最合适的数据,建立模型去分析各个参数之间的相关性,从中准确地提取规律并解释知识,最终确立或预测给定体系下“组成-工艺-结构-性能”之间的定量定性关系。相比前两种模式,数据驱动模式可以极大地提高材料设计的速度,并且降低设计成本,更好地筛选和设计材。
近年来,材料大数据集的可用性结合算法的改进和计算能力的指数级增长,机器学习的热度空前高涨。仅仅根据材料化学成分中的知识预测晶体结构仍然是材料科学中最重要的挑战之一,因为任何合理的材料设计都必须基于晶体结构的知识。不幸的是,晶体结构的第一原理预测异常困难,因为组合空间由三维空间中所有可能的原子排列组成,并且具有极其复杂的能量表面。近年来,先进的结构选择和生成算法,如随机采样、模拟退火、分子动力学、最小跳跃和进化算法的进展,扩大了“经典”晶体结构预测的应用范围。然而,如果不在巨大的组成和结构空间中寻找,就不可能找到新的或更好的高性能材料。由于涉及大量数据,机器学习算法是应对这一挑战的最有希望的候选算法之一。
机器学习方法利用速度快几个数量级的模型代替第一性原理方法来加速能量评估。然而,无机固态物理中最突出的方法是成分预测,需要选择原型结构并扫描稳定材料的成分空间。在这种情况下,热力学稳定性是基本概念。稳定性通常与材料是否可合成,以及在特定温度或压强下是否会随时间降解相关,热力学稳定的化合物通常更容易生产和使用,对于新型功能材料的发现具有重要作用。热力学稳定性的衡量标准是到凸包的能量距离,即原子核外能(Energy above hull),在特定条件下机器学习模型将直接计算化合物在某个阶段存在的概率。
在成分预测方面,模型的期望输出是一个数值,该数值量化了化合物在一个特定结构中凝结的概率。Faber等人应用KRR计算了200万个由铋以下的主族元素组成晶体的形成能,对于由个成分组成的训练集,报告的误差约为0.1eV/atom,同时还使用了来自Materials Project的能量和数据,构建了78个相图,并且预测了位于凸包上90个新的化学计量。Schmidt等人构建了一个大约基于DFT计算的250000立方钙钛矿的数据集,使用了铋以下的所有元素,忽略了稀有气体和镧系元素,在测试了不同的机器学习方法后,最终采用结合极限随机树和自适应增强方法以0.12eV/atom的平均误差获得了最大的成功。Ward等人使用随机森林,结合结构信息和原子属性来预测形成能,验证了仅包含成分信息的模型误差比包括结构信息的模型误差高37%。Kim等人使用随机森林发现了四元赫斯勒化合物,并确定了53个新的稳定结构。Ye等人基于元素电负性和离子半径建立神经网络预测未混合钙钛矿的形成能,平均误差为30meV/atom。Xie等人开发的CGCNNs、Chen等人开发的MGN和Jorgensen等人开发的MPNNs都可以预测形成能,用于加速组分预测。Balachandran等人预测了钙钛矿是以立方钙钛矿还是非立方钙钛矿的形式存在,交叉验证的平均误差为94%。Oliynyk等人使用皮尔逊晶体数据和合金相图数据库中化合物建立随机森林模型,预测了形成具有特定组成的全赫斯勒化合物的可能性,最终成功地预测了几种新型全赫斯勒相图的稳定性。Hautier等人建立了一个概率模型来预测ABO化合物新的成分和它们最可能的晶体结构,为了评估稳定性,还计算了数据库中存在的所有分解通道的能量,最终在凸包上产生了355个新化合物。
在结构预测方面,关注的是区分多种晶体结构,通常这是一个复杂得多的问题,因为结构空间的理论比成分空间更具有复杂性。Fischer等人开发了一种基于累积量展开法的方法,估计了两个结构的稳定性与其组成的相关性,以预测元素组成形成特定二元晶体结构的概率。Olynyk等人将聚类分辨率特征选择应用于二元晶体结构的分类,选择的特征被用作偏最小二乘判别分析和支持向量机的输入。Balachandran等人用机器学习方法研究了60000个潜在的钙钛矿,首先用奇异值分解将它们分为钙钛矿和非钙钛矿,然后预测这些钙钛矿的居里温度,一旦某种候选钙钛矿被实验性地合成,它就被添加到训练集中,重复该过程,最终发现了六种钙钛矿,其最高居里温度为898K。Graser等人应用随机森林对数据库中的24215种化合物进行晶体结构分类,研究了模型预测能力相对于截止值的变化,结果表明召回率随着截止数量的增加而提高。Park等人开发了255个深度卷积神经网络,使用X光图作为输入,空间群、消光群或晶体系统作为输出,该模型能够正确识别两个新化合物的结构系统,这两个化合物的原型结构没有出现在数据库中。Nouira等人引入了一种基于GAN的策略,在二元氢化物的基础上产生稳定的三元结构。
在上述介绍的几类方法中,基于机器学习的方法具有响应时间短、速度快、提取的特征具有泛化性等特点,相比于其他方法来说在预测效果上具有一定的优势。
实现思路