说明:本次主要概述了机器学习的定义、机器学习的应用领域、机器学习在XAFS中的三个应用案例,想要了解更多机器学习知识,欢迎关注我们!
机器学习(ML)是计算机科学的一个领域,它通过计算机从样本数据中构建模型,以在未知数据上进行预测和生成结果。在这种“黑箱”模型中,计算机能够根据经验和训练样本自动优化和改进算法。使用机器学习模型的关键步骤包括从大量数据中有选择地提取适当的数据集,以及选择最合适的机器学习方法,以确保结果的准确性和可靠性。
图1化合物通过实验、理论计算或者机器学习方法进行研究
机器学习模型的成功与几个关键因素有关。从大量数据中有选择地收集相关数据,确保用于训练的数据具有代表性且质量高。选择合适的机器学习技术,因为不同的算法适用于不同类型的难题和数据结构,这一选择过程对于产生准确且可靠的结果至关重要。
图2四个科学范式:经验,理论,计算和数据驱动
机器学习主要可以分为监督学习、无监督学习、半监督学习和强化学习。
其中监督学习是最常见的机器学习类型。在这种学习方式中,模型从标记的训练数据中学习,每个训练样本都有一个对应的标签或输出值。模型的目标是学习输入特征与输出标签之间的映射关系,以便在给定新的、未见过的输入数据时,能够准确地预测其对应的输出。其常见算法有:线性回归、逻辑回归、支持向量机、决策树和K近邻算法等;
无监督学习的训练数据没有标签,模型需要自己发现数据中的结构和模式。其目的是对数据进行探索性分析,例如聚类、降维等,以了解数据的内在特性。其常见算法有:K均值聚类、层次聚类、主成分分析、自编码器等;
半监督学习介于监督学习和无监督学习之间。在这种学习方式中,训练数据既包含少量的标记样本,也包含大量的未标记样本。模型的目标是利用少量的标记数据和大量的未标记数据来提高学习性能,尤其是在标记数据获取困难或成本较高的情况下。其常见算法有:伪标签法和一致性正则化等;
强化学习是一种让智能体在环境中通过与环境的交互来学习如何做出决策的方法。智能体根据当前的状态选择一个动作,环境会根据这个动作给出相应的奖励(Reward)和下一个状态。智能体的目标是学习一个策略,使得在长期过程中获得的累积奖励最大化。其常见算法有:Q学习(Q-Learning)、深度Q网络(Deep Q-Network,DQN)和策略梯度方法(Policy Gradient Methods)等。
图3机器学习分类及常见算法
随着计算机算力和实验能力的提升,机器学习在化学与材料中的应用不断增多,相关文章发表量逐年上升,吸引了传统化学工作者的关注。数据库的使用、与高通量筛选及机器学习的结合,正迎来研究的快速发展阶段,并广泛应用于多种领域。
图4机器学习数据库在化学与材料领域日益增多
机器学习是一种广泛的机器应用,可以数据分析与挖掘,图像的识别和处理,自然语言处理,医疗和生物科学,科学研究等应用。除上述应用外,机器学习还可以应用于网络、交通、农业、工业、物流、教育、政府等领域,为各个行业带来更高的效率和更好的服务。随着技术的不断发展和进步,机器学习的应用场景还将不断扩大和深化。
图5机器学习在科学研究中的应用
案例一:解码稀薄合金催化剂中的反应性结构

背景介绍
在全球能源需求不断攀升的背景下,提高化学生产中催化过程的效率与可持续性成为关键课题。稀合金催化剂因能提升反应活性和选择性且减少贵金属用量而具重要工业价值,但其活性位点的动态变化特性使得精准识别面临挑战。Anatoly I. Frenkel及其合作者以稀Pd-in-Au合金纳米颗粒催化的氢 – 氘交换反应为研究对象,借助催化活性测量、机器学习赋能的光谱分析以及基于第一性原理的动力学建模等多模态方法,成功揭示出活性物种为仅含1到3个Pd原子的表面Pd簇,并发现可通过催化剂预处理调控Pd簇大小来按需调节催化活性。机器学习在其中发挥了重要作用,其辅助的XANES反演方法能精准提取结构描述符,有效解析XAS谱图,为合理设计催化剂、深入理解复杂合金催化剂反应机制提供了有力支持,且该研究方法有望拓展应用于其他相关稀合金系统的复杂反应研究中。
图文分析
图6 Au稀纳米颗粒中8%Pd的XANES及分析
Anatoly I. Frenkel课题组通过机器学习辅助的XANES分析,成功在Au催化剂中分离了8%Pd中的PdnAu。这种方法利用了XANES对每个Pd原子的PdPd键数目相对较少的敏感性。通过将部分PdPd和PdAu配位数与通过透射电子显微镜、能量色散光谱、电子能量损失谱、催化实验和广泛的理论计算获得的信息相耦合,得到了一个包含PdN(n=1,2,3)系综的表面和亚表面物种的多相模型。结果,检测到n=1,2(单体和二聚体)和n=3(三聚体)之间的差异,解释了反应结果作为催化剂预处理的函数的变化。
原文链接:Decoding reactive structures in dilute alloy catalysts
https://doi.org/10.1038/s41467-022-28366-w
DOI: 10.1038/s41467-022-28366-w
案例二:使用和基准测试计算代谢组学代谢物注释工具的良好实践和建议

背景介绍
计算代谢组学中代谢物注释工具的使用和基准测试的良好实践与建议。研究背景强调了非靶向代谢组学方法在获取复杂生物样本的全面代谢物谱方面的重要性,但目前平均只有10%的分子能够被注释,这严重限制了代谢组学研究的生物化学解释和有效比较。尽管计算代谢组学领域取得了进展,新的方法开始使大规模和可靠的代谢物注释成为可能,但不同工具的基准测试不一致性阻碍了用户选择最适合自己研究的方法。该工作总结了不同工具的基准测试策略,并提出了一些基准测试和比较新工具的建议。
图文分析
图7 处理异类数据的两种最常见的方法
聚类和监督分类是收集含有混合源的光谱数据的自然选择,但实验参数具有已知的变化,如成分、温度或随时间变化的测量。从XAFS光谱分类的角度来看,主要有两种方法,如图7所示。直接分类。首先,直接应用Logistic回归、支持向量机、随机森林、人工神经网络等技术对光谱进行监督分类。多标签分类算法可以处理引起平均XANES谱的多个源的识别,其中目标是学习从特征向量(μ(E),在不同X射线能量下的吸收系数的值)映射到输出标签向量(y=y1,y2,…)的分类器,表示有没有上课。解决多物种光谱分类的第一个挑战是识别可靠的类别。在大量文献的基础上,作者提出,理论标准也可以用来定义可靠的XANES光谱类别。在分类步骤之后,接下来是先前开发的反演方法(见上文),将每个类别中的光谱映射到特定类别的描述符。这种方法可以结合到分析工作流程中,其中在分类之前的步骤是对光谱进行MCR-ALS(多元曲线分辨-交替最小二乘法)分析(见图7a),从而从离散数量的纯物种的光谱中提取。基于嵌入的方法。谱嵌入是低维的潜在空间表示。嵌入是光谱的有用特征,其可用于各种任务,例如分类、回归、数据可视化等。嵌入的这种向量空间表示还允许不同的相似性度量将输入数据聚集在不同的组中,将相似的数据点拉近,将不同的数据点推向更远的距离,如图7b所示。此外,解码器或产生式模型可用于学习潜在候选结构的概率分布,作为将光谱与该结构“反转”的直接途径。
原文链接:Good practices and recommendations for using and benchmarking computational metabolomics metabolite annotation tools
DOI: 10.1007/s11306-022-01963-y
案例三:通过机器学习自动识别X射线吸收精细结构谱
背景介绍
XAFS分析常常借助对比已知光谱来分析,这一过程在很大程度上依赖于研究者所积累的经验知识。在本研究中,Keisuke Takahashi及其团队巧妙地引入了监督机器学习技术,结合从XAFS数据中提取的特征以及元素的物理属性,成功构建了一种既自动化又高效的氧化态分类新方法。研究者们深入探讨了两种不同的分类策略:一是判断材料是否属于氧化物的分类,二是对价电子数量进行细致分类。通过精心设计的特征描述符以及精准的机器学习模型,该研究能够以极高的精确度预测材料的氧化态。这些令人鼓舞的成果清晰地展示了,借助高维且复杂的模式识别,可以从XAFS光谱数据中精准地对目标材料进行氧化物属性以及价电子数量的分类,从而为材料科学领域的研究提供了一种全新的、有力的分析工具。
图文分析
图8机器学习自动识别X射线吸收精细结构谱流程示意图
Keisuke Takahashi及其团队利用机器学习从XAFS光谱中自动分类氧化物和价态。通过收集和处理可用的XAFS光谱数据,形成了一组特征描述符。这些特征描述符在构建由机器学习算法驱动的准确分类模型中起着重要作用。该模型应用于未知数据时显示出较高的精度,足以证实该方法的可行性和可靠性。研究结果表明,在未来该方法可以通过扩大训练集数据的规模和多样性来进一步发展。
原文链接:Automatic Identification of X‑ray Absorption Fine Structure Spectra via Machine Learning
https://doi.org/10.1021/acs.jpcc.4c02795
机器学习在XAFS领域具有解决长期挑战的潜力,如不适定问题,但其输出基于训练数据的先验信息,需谨慎分析理论正向建模和实验数据信息内容的限制,并尽可能验证ML预测。最近发展的基于X射线的非均相混合物分析吸收光谱方法显示,除传统源分离方法外,分类和基于深度生成模型的分布学习在XAFS中具有吸引力和广泛应用前景。MCR-ALS可减少选择偏差,而生成模型如VAE(变分自编码器)提供新途径学习潜在分布,与“潜变量法”契合,对多相催化研究意义重大。尽管可逆嵌入在XAFS中应用尚处初级阶段,但已在化学和催化其他领域有广泛应用,从去噪到生成不适定问题的潜在解决方案。