受AI围棋启发!麻省理工邵阳院士/李巨教授,重磅Nature Energy:让电池「起死回生」!

受AI围棋启发!麻省理工邵阳院士/李巨教授,重磅Nature Energy:让电池「起死回生」!
成果介绍

在诸如直接甲醇燃料电池(DMFC)等复杂能源系统中优化非线性时变控制是一项关键的工程挑战。DMFC的长期供电能力会因电催化表面被污染而下降。动态电压调整能够清洁表面并恢复催化剂的活性;然而,手动确定考虑多种机制的最优控制策略颇具难度。

麻省理工学院邵阳院士、李巨教授等人展示了一种受actor–critic强化学习启发的非线性策略模型(Alpha-Fuel-Cell),该模型直接从现实世界中的实时轨迹中学习,以推断运行期间催化剂的状态,并自动为下一个时间步生成合适的动作。此外,该模型能够提供协议,在实现所需功率的同时显著减缓催化剂的降解。得益于该模型,与直接恒电位操作相比,直接甲醇燃料电池在12小时内的平均输出功率提高了153%。该框架可能适用于其他需要在现实世界中进行长期决策的能源设备应用。

相关工作以《An actor–critic algorithm to maximize the power delivered from direct methanol fuel cells》为题在《Nature Energy》上发表论文。

值得注意的是,《Nature Energy》还以Research Briefing形式对该文章进行单独简要报道,在此作者进一步介绍了研究工作的灵感,来源于2016年发表在《Nature》上题为《Mastering the game of Go with deep neural networks and tree search》的论文(“通过深度学习来掌握围棋游戏”该研究证明了深度学习和蒙特卡洛树搜索相结合的方法在解决围棋这类复杂问题上的有效性)。这篇文章启发了作者在能源设备中利用深度学习并开发出本文的模型。

受AI围棋启发!麻省理工邵阳院士/李巨教授,重磅Nature Energy:让电池「起死回生」!

邵阳(Yang Shao-Horn),1992年毕业于北京工业大学,获得工学学士学位,1998年获得密歇根理工大学博士学位;美国国家工程院院士,美国国家发明家科学院院士,麻省理工学院机械工程系和材料科学与工程学院教授。主要致力于材料表面科学、催化/电催化及电化学储能材料的设计制备领域的研究。

李巨,1990考入中国科学技术大学少年班,2000年于MIT获博士学位,2002-2007年任俄亥俄州立大学助理教授,2007-2011年任宾夕法尼亚大学副教授,2011年被MIT核科学与工程系及材料科学与工程系联合聘为正教授。李巨教授是计算材料学领域的国际知名学者,致力于材料性质的多尺度计算研究,特别是在材料力学行为的原子模拟等方面获得了多项重要突破。曾获美国青年科技工作者最高奖“青年科学家工程师总统奖”,美国材料学会杰出青年科学家大奖,2014年入选汤森路透全球高被引科学家名单,美国物理学会会士(APS)和美国材料学会(MRS)会士,2020年当学美国科学促进会(AAAS)会士。

图文介绍

首先,人工手动证明了电压开关可以提高Co-Pt-Ru/NC催化剂的活性。加入静息电位和静息时间来清洁催化剂表面,并在计时安培(CA)测量中恢复活性。通过比较氧化电位和还原电位选择静息电位。施加MOR电位(0.7 V)后,电极静置30秒,然后在0.7 V下再次测试。与在高电位(1.2或1.7 V)下静置相同时间后的电流密度相比,较低电位(0.1 V)能够提高活性,或者与相同时间段内积分电荷相比也是如此。此外,过高的电位可能会导致催化剂退化,这是由于碳载体腐蚀以及钌的浸出所致。因此,在训练和运行期间的所有静置电位均低于0.6 V。

受AI围棋启发!麻省理工邵阳院士/李巨教授,重磅Nature Energy:让电池「起死回生」!

图1 αFC系统示意图

αFC的工作流程如图1所示。确定了四个独立的动作变量来控制DMFC:工作时间、工作电位、静息时间和静息电位。这些变量形成了典型的电流-时间轨迹(图1a),用于计算平均功率和状态反映。所提出的系统由一个执行器模块和一个评价器模块组成,灵感源自强化学习中的actor–critic算法(图1b)。在训练和控制过程中,采用了自动测量方法。critic模块在强化学习中充当动作价值函数的角色,它会评估在给定状态下每个动作的价值(图1c)。actor模块根据期望的功率输出来确定控制策略(图1d)。

作者提议利用训练好的神经网络的可微性,以在期望输出发生变化时无需重新训练。将一批随机动作输入到critic模块中,并应用反向传播以最小化critic模块的预测值与目标输出值之间的差距。这使得在仅使用中央处理器(CPU)的情况下,在合理的时间(0.3 秒)内实现高效的优化。最后,选择差距最小的动作。

受AI围棋启发!麻省理工邵阳院士/李巨教授,重磅Nature Energy:让电池「起死回生」!

图2 αFC的训练结果及控制过程

critic模块的学习曲线如图2a所示,表明验证损失在300个周期内趋于稳定。通过数据增强,平均绝对误差降至0.011 mW,皮尔逊相关系数提高到0.969(图2b),这证明了模型的准确性以及数据增强的有效性。

在实际实验中,图2c展示了αFC如何控制系统的示例。在步骤n-1之后,电池的状态(staten-1)是从轨迹曲线中获取的。在此步骤中,电流在10秒时为0.99 mA(起始电流),在300秒时降至0.81 mA(结束电流)。尽管状态变化肉眼难以察觉,但αFC能够捕捉到这一变化。状态staten-1被传递给执行模块,该模块生成下一步的动作(actionn),以更好地实现预期的输出。它建议进行一次低电位清洁操作。在步骤n时,电流从0.97 mA降至0.81 mA。同样,αFC在接收staten作为输入后建议动作actionn+1。相应的轨迹显示电流从0.95 mA变化到0.82 mA。这种模式表明催化剂会随着时间的推移而衰减,但最终的结束电流可能保持不变或甚至高于前两步的值,这表明αFC的控制能够恢复催化剂的活性位点并延长其使用寿命。

受AI围棋启发!麻省理工邵阳院士/李巨教授,重磅Nature Energy:让电池「起死回生」!

图3 αFC系统的控制能力及分析

为了验证αFC的性能,在一个三电极系统上进行了对照实验。通过将目标值设定得远高于电池当前状态所能达到的输出值,可以实现最大化效果。控制过程采用了以下不同的目标值顺序:最大功率、0.2 mW、0.1 mW、再回到最大功率、-0.1 mW,然后又回到最大功率(图3a)。采用负功率条件来评估αFC是否能在极端条件下恢复催化剂性能。该直接甲醇燃料电池系统成功达到了设定的目标,包括负目标,这意味着燃料电池可以转变为电解器。

值得注意的是,αFC总是能让电池在目标切换为最大功率时恢复到其最大输出功率。尽管最初预测的功率略高于实验功率,但后来几乎与最大实验功率重合。这些结果表明了αFC出色的适应目标能力。在图3b中进一步分析了在不同目标下运行时的具体参数。随着目标输出的变化,控制条件会相应调整以匹配所产生的输出。例如,当功率达到最大值时,工作时间会更长,而静息电位会更低,这有利于产生更多能量,并使催化活性得到更好的恢复。可以通过降低工作电位、增加休息时间以及减少工作时间来减少能量的产生。

作者选择了一种贪婪算法(GA)作为基准,以展示αFC在基于梯度的优化(GBO)方法下的优越性。GBO通过将critic模块作为替代模型,在50次迭代中最小化差距。使用训练好的critic模块设置了三个GA:相同的搜索次数、相同的迭代次数和相同的运行时间。梯度跟踪所需的计算量大约是前者的三倍,这为此次比较提供了合理的依据。图3c中的比较结果表明,GBO控制策略始终能取得更出色的性能。

受AI围棋启发!麻省理工邵阳院士/李巨教授,重磅Nature Energy:让电池「起死回生」!

图4 采用ECMS探讨αFC体系机理

为了探究αFC的控制能力以及催化剂活性的恢复机制,采用原位ECMS来监测MOR过程中关键产物的变化。对四种主要产物(H2、CO、O2和CO2)进行了检测。在0.1 M HClO4电解液中进行循环伏安扫描时的背景质量信号如图4a所示。随着电位升高,观察到了CO2和CO的微弱信号,这可能是由于在较高电位下碳逐渐氧化成CO2,而CO则充当了CO2的组成部分。微弱的O2信号归因于在高电位下发生的少量O2析出。清晰的H2信号可归因于在酸性条件下低电位下的循环伏安扫描过程中发生的H2析出。

在电解液中加入0.1 M甲醇后,CO2和CO的信号变强,这反映了甲醇的氧化(图4b)。与CA测量不同,循环伏安扫描显示出较慢的电流下降,这表明在H2析出过程中催化剂表面得到了更新。在H2生成过程中出现了少量的CO信号波动(用红色虚线圈出),这可能是由于结合的CO被氢中间体取代并释放到溶液中所致。将电位切换到0.65 V 时,CO2和CO的信号起初达到峰值然后下降,与电流行为相似(图4c),这是由于催化剂表面积累有害中间体,这些中间体阻塞了活性位点所致。此外,由于恒定电位无法像CV扫描那样使催化剂得到清洁,因此未观察到氢离子信号。这也解释了为什么在典型的甲醇氧化反应测试中,CV扫描下的性能比连续分析测量更为稳定。

图4d展示了在αFC控制反应时这四种产物的信号。正如预期的那样,当施加静息电位至MOR时,H2信号再次出现,此时催化剂的表面被氢中间体覆盖(清理表面以恢复活性)。此外,在100秒左右有一个小峰值(红色圆圈),可归因于累积的CO被释放到电解液中。此外,还计算了实验过程中CO2和CO的信号衰减比率。在CV扫描过程中,CO表现为CO2的片段,因此它们的衰减比率应保持不变。然而,在静息电位状态下,CO信号的变化不仅受到CO2减少的影响,还受到CO释放的影响。通过比较CO2和CO信号的衰减比率,可以发现其在静息电位条件下的衰减比率较小,这表明在该状态下催化剂表面存在CO的释放。这进一步证实了αFC能有效地清除催化剂表面的有害物质,从而恢复其性能。

受AI围棋启发!麻省理工邵阳院士/李巨教授,重磅Nature Energy:让电池「起死回生」!

图5 αFC系统输出功率的控制与最大化

为了进一步展示αFC在提升输出功率方面的作用,将其与不同的操作策略进行了比较。首先,在一个三电极系统中,对商用的PtRu/C催化剂施加了一个恒定电位(0.65 V),持续四小时,作为基准,因为模型表明在该电位下,对于质子交换膜燃料电池(DMFC)而言,功率是最大的。此外,对于Co-Pt-Ru/NC催化剂,采用了三种不同的策略:恒定电位策略、手动切换策略以及采用αFC以最大化平均功率。为了避免不公平的比较,恒定和切换策略的参数是由模型确定的(图3b)。

四小时的测试结果显示,功率输出按以下顺序增加:PtRu/C_constant<Co-Pt-Ru/NC_

constant<Co-Pt-Ru/NC_switch<Co-Pt-Ru/NC_αFC(图5a)。αFC控制策略实现了0.284±0.013 mW的功率,分别比Co-Pt-Ru/NC保持不变和PtRu/C保持不变的功率高出2.15倍和4.64倍。操作时间延长至12小时。在图5b中,采用恒定电位策略时,尽管Co-Pt-Ru/NC的催化活性优于PtRu/C,但由于CO或其他物质的中毒作用,两种情况下功率都迅速下降。切换策略减少了催化剂的失活现象,表现出比恒定策略更好的持续性能。更重要的是,αFC的功率相比切换策略提高了30.4%。与所使用的催化剂以及商业催化剂的固定策略相比,进一步的对比结果显示,αFC的功率提升能力分别达到了185.2%和486.1%(图5c)。

对于商业化的PtRu/C催化剂,传统的恒定电压测试会导致装置电流在四小时内迅速下降,从而导致输出功率急剧降低。然而,当对经过恒定策略测量后的同一膜电极组件(MEA)进一步进行αFC控制时,输出功率能够达到最大值并保持超过12小时(图5d)。在最初的四小时运行时间内,αFC可以将输出功率提高34.91%(图5e)。当使用Co-Pt-Ru/NC作为较低贵金属替代品时,它在恒定电压测试中的稳定性更高,但仍表现出明显的输出功率下降,这凸显了αFC的实用性(图 5f)。当αFC 控制以Co-Pt-Ru/NC作为阳极催化剂的DMFC时,输出功率能够保持在最大水平(约20 mW),且几乎没有下降。在12小时内,αFC进一步将输出功率提高了53.79%,为它对DMFC的有效控制提供了有力证据(图5g)。

文献信息

An actor–critic algorithm to maximize the power delivered from direct methanol fuel cells,Nature Energy,2025.

https://www.nature.com/articles/s41560-025-01804-x

声明:如需转载请注明出处(华算科技旗下资讯学习网站-学术资讯),并附有原文链接,谢谢!
(0)
上一篇 2天前
下一篇 1天前

相关推荐