符号回归(SR)方法能够从海量数据集中探索数学表达式,以构建可解释机器学习模型,具有将“黑箱”机器学习方法转化为材料科学研究中物理和化学可解释表达式的潜力。在本综述中,北京航空航天大学孙志梅团队总结了符号回归方法的发展历程和研究现状,重点阐述了符号回归方法的基础理论、训练流程、现有的方法和代码以及在材料学不同问题中的应用案例。更为重要的是,展望了符号回归方法在材料设计和研究中需要克服的挑战和未来机遇,包括图形处理单元加速方法和迁移学习算法、表达式准确性与复杂性之间的权衡、基于大语言模型的物理或化学可解释性以及多模态符号回归方法等。
1. 背景介绍
随着科学研究范式从理论模拟向数据和人工智能驱动的研发模式转变,材料领域产生的泽字节(ZB)级别的数据量预估呈现每年 40% 的增长趋势。基于海量数据,探索输入材料描述符和目标属性之间的关系,并构建准确且可扩展的属性预测模型或逆向材料设计模型是新材料设计研发的趋势。然而,这些模型通常基于数学统计和概率原理,缺乏直接的物理或化学解释性,通常被视为“黑箱”模型。由于模型决策过程的不透明,削弱了模型预测结果的鲁棒性和可靠性,导致研究人员难以完全理解模型的预测运行机理。
符号回归(SR)作为可解释机器学习方法之一,旨在打开机器学习模型的“黑盒”,揭示其模型内部工作机制,提供对模型决策过程的洞察。与传统机器学习方法不同,符号回归不仅能够迭代优化模型的参数,而且通过自主搜索最佳模型结构和形式,探索被传统机器学习方法忽略的数据间的潜在关系。
本综述重点介绍了符号回归的基础原理、代码实现、材料应用和未来前景。首先,介绍了与符号回归相关的表征学习和生成模型以及符号回归的训练拟合方法。其次,概述了基于不同机器学习方法的符号回归算法、基准数据集和可执行代码。然后,讨论了符号回归在材料特征(描述符)选择、材料性质预测和原子相互作用势中的应用。最后,展望了符号回归当前的挑战和未来的机遇。
2. 符号回归的发展历程
首先调研了从 2000 年以来发表的与符号回归相关的研究论文数量及其在材料科学领域和计算机领域的增长趋势。回顾了符号回归发展过程中相关的标志性事件,包括 1990 年前提出的遗传算法、2000 年左右提出的机器学习方法和最近提出的具有物理意义的 AI Feynman 方法等。进一步给出了数学符号在机器学习中的二叉树表现形式。
3. 符号回归方法和实现代码
针对不同的符号回归模型构建算法,本文将符号回归方法分为遗传算法符号回归(GPSR)、传统机器学习符号回归(TMLSR)、深度学习符号回归(DLSR)、注意力机制符号回归(TSR)和图神经网络符号回归(GSR)。进一步,介绍了用于评估符号回归模型精度常用的数据集,包括 AI Feynman 数据集、Chaotic 数据集、SRBench 数据集等。
4. 符号回归方法在材料领域的应用
本文主要介绍了符号回归方法在材料特征描述符重要性排序,材料性能预测(结构稳定性、机械性能、带隙预测、热导率预测、热电性能,电池电极材料,催化性能等)和构建简单体系原子间相互作用势等三个领域的应用。以符号回归探究材料机械性能物理表达式应用为例详细阐述了符号回归方法在解决材料问题中的应用流程。
5. 总结与展望
本文总结展望了符号回归方法在 GPU 加速方法、迁移学习、如何权衡模型复杂度和预测精度、基于大语言模型(LLMs)的物理化学可解释性探索、多模态符号回归方法等方面的进展与挑战。






