机器学习势函数入门：如何用高精度量子数据训练第一性原理级模型？

说明：本文华算科技介绍了机器学习势函数的基本概念与计算化学视角下的关键要素，说明了如何用高精度量子数据训练模型以在大尺度模拟中近似第一性原理精度。

文章讨论了训练数据、原子描述与模型结构的选择，提出主动学习与物理–数据混合策略，并给出使用与验证的实践建议，便于初学者将机器学习势安全地应用于材料与化学动力学研究。

什么是机器学习势函数

机器学习（ML）势函数，简单来说就是用机器学习把昂贵的量子力学计算“学会背下来”，变成一个能快速给出体系能量与力的函数。

在计算化学里，我们常常需要知道原子在某种构型下的势能面以模拟动力学或预测性质，但直接用第一性原理方法（如DFT）做长时间、大尺度的模拟代价太高。

下图呈现了一个闭环工作流，包括势能面采样、机器学习势训练、结构预测和模型更新，体现了机器学习势在动态模拟中的自洽性。

DOI:10.1021/acs.accounts.0c00472

ML势的思路是先用DFT或更高精度的方法计算出大量代表性构型及其对应的能量与力，然后训练一个模型去拟合这些输入输出关系。训练好的模型在遇到相似构型时能够以接近第一性原理的精度，速度却接近经典力场，从而把原本只能在小体系或短时间做的“高精度模拟”扩展到更大的尺度。

如何实现ML势

实现一个可靠的ML势需要几个关键步骤：

1）设计对称性保守的描述符或用端到端网络自学表征，以保证平移、旋转、置换不变性；

2）选择合适的模型架构，比如基于原子分解的神经网络（Behler–Parrinello风格）、基于图神经网络的端到端模型（如SchNet、DimeNet）或高斯近似势（GAP）；

3）构造高质量训练集，覆盖目标体系在温度、压力及化学反应途径下可能出现的构型；

4）训练时同时拟合总能量与力以提高动力学模拟的稳定性；

5）最后在独立测试集和实际MD模拟中进行交叉验证。

下图展示了用于研究RuO₂(110)表面在酸性氧气进化反应（a-OER）条件下结构演变的机器学习势（MLP）工作流。

该工作流结合了遗传算法（GA）和分子动力学（MD）模拟，通过迭代训练和优化，高效探索复杂的组成和构型空间。

DOI:10.1021/jacs.4c18300

计算化学的视角强调两点：一是能量与力的一致性（力是能量的导数），二是训练数据的物理覆盖面——模型永远只擅长它“见过”的化学与构型空间。

因此，主动学习（active learning）或自适应采样在构建数据集时非常重要，能自动发现模型不确定的区域并用高精度计算补充样本，从而节省计算资源并提高可靠性。

应用前景

在应用层面，机器学习势函数已经被用于研究相变、缺陷迁移、表面重构、界面动力学和化学反应等多种问题，能够在纳米到微米尺度、纳秒到微秒时间尺度上复现第一性原理难以企及的过程。

下图展示了通过机器学习方法对DFT计算结果进行采样，并通过并发学习策略主动探索电解液势能面上未学习到的结构，仅用少量（数千个）静态DFT计算的结果即可训练出能覆盖电解液势能面的机器学习势函数，从而进行具有AIMD精度和CMD速度的模拟。

DOI:10.1016/j.ensm.2024.103470

需要注意的是，ML势并非万能：它在遇到训练域外的化学环境时可能会严重失准，对长程电荷相互作用和化学键断裂/形成需要特别设计或混合物理模型，且训练集的生成本身也依赖大量高精度计算。

尽管如此，随着方法学的进步与开源工具的普及，ML势正快速成为连接第一性原理与多尺度模拟的重要桥梁，为材料发现、催化机理和动力学过程的研究提供前所未有的计算能力。

总结

机器学习势函数将高精度量子计算的优点与机器学习的高效性结合，使得在接近第一性原理精度下进行大尺度、长时间分子动力学模拟成为可能。

成功构建ML势依赖于代表性的数据集、物理保持的不变性描述以及适合的模型架构，主动学习和混合物理项已成为提升可靠性的常用策略。使用时必须严格验证模型在能量与力上的精度，关注训练域外泛化、长程相互作用与化学反应处理等局限性，并通过DFT回退验证关键轨迹。

总体而言，ML势为计算化学研究打开了新的尺度窗口，既能加速材料筛选与机理探索，也能在合理的前提下把理论预测更直接地对接实验检测。

【做计算找华算】

🏅 华算科技提供专业的第一性原理、分子动力学、生物模拟、量子化学、机器学习、有限元仿真等代算服务。

🎯500+博士团队护航，累计助力5️⃣0️⃣0️⃣0️⃣0️⃣➕篇科研成果，计算数据已发表在Nature & Science正刊及大子刊、JACS、Angew、PNAS、AM系列等国际顶刊。 👏👏👏

声明：如需转载请注明出处（华算科技旗下资讯学习网站-学术资讯），并附有原文链接，谢谢！