近日,华东师范大学物理学院、上海市磁共振重点实验室、医学磁共振与分子影像技术研究院的潘丽坤教授、杨光副研究员团队王成龙专任副研,联合暨南大学黎晋良副研究员在《Journal of Energy Chemistry》上发表题为“Data-augmented machine learning for predicting biomass-derived hard carbon anode performance in sodium-ion batteries”的研究论文。
针对当前钠离子电池生物质衍生硬碳负极合成规律复杂、传统“试错法”耗时耗力,以及机器学习面临的“小样本”数据匮乏问题,该工作提出了一种基于生成式AI模型的数据增强与机器学习相耦合的新框架。该框架不仅实现了对硬碳容量和首次库仑效率(ICE)的高精度预测,更通过可解释性分析揭示了合成参数与结构特征的协同机制,并成功指导了高性能竹基硬碳的闭环合成验证。

图1论文首页截图
【核心解读:从“盲目试错”到“数据增强与理性设计”】
传统的机器学习模型在处理异构文献数据时,往往因样本量不足而导致严重的过拟合和高预测误差(RMSE动辄大于60 mA h g-1)。为了打破数据壁垒,本工作引入了创新的数据扩增与解析逻辑:
首先,引入生成式AI模型打破材料科学中小样本的局限,模型不再受限于有限的原始数据(350个样本),而是通过数据扩增技术将数据集大幅扩充至820个。这一操作显著提升了特征空间的密度,让模型能够学习到更加鲁棒的物理化学规律。
其次,极低误差的高精度预测,经过数据增强后,XGBoost模型展现了惊人的预测能力。其对容量预测的误差(RMSE)低至23.290 mA h g-1,对ICE预测的R2高达0.868。相较于前人工作,预测误差大幅降低了约65%,真正将机器学习从统计不确定性推向了具备筛选实用价值的新高度。
在最终的效果验证中,通过SHAP解释性方法和局部依赖图分析,XGBoost模型不仅给出了预测值,还拥有了深度的“材料学直觉”。模型明确指出“二次碳化温度”是决定容量与ICE的最核心参数。当温度突破1000°C时,性能呈现阶跃式跃升。并且,发现了硬碳内部的“存储-传输”平衡(Storage-Transport balance),扩大的层间距(d002)必须配合适度的缺陷无序度(ID/IG ~1.4-1.8),才能真正发挥高容量优势。
我们根据模型圈定的最优参数空间,以竹子为前驱体定向合成了四组硬碳材料。实验结果表明,在最优条件下(1300 °C,2.75 h)合成的HC-1,斩获了324.61 mA h g-1的高比容量和79.99%的高ICE,与机器学习的预测高度吻合!

图2输入特征和目标变量的Spearman相关性分析图

图3不同机器学习模型的性能表现对比图

图4数据增强后模型的回归拟合与性能对比图

图5 XGBoost模型特征重要性(SHAP)分析结果

图6核心特征的局部依赖图分析结果

图7竹基硬碳闭环实验的电化学性能验证结果
【总结与展望】
本工作建立了一条“小样本提取→ TabPFN增强→ XGBoost高精预测→ SHAP机制解析→实验精准合成验证”的全链条研发范式。不仅成功解决了生物质衍生硬碳材料开发中合成黑盒与数据匮乏的双重挑战,大幅缩短了研发周期,也为其他能源材料体系的数字化和智能化设计提供了极具参考价值的计算框架与实践样板。
本文第一作者为华东师范大学在读硕士研究生生陈罡。
附文章链接:
https://doi.org/10.1016/j.jechem.2026.01.057