摘要
近日,华东师范大学物理与电子科学学院、上海市磁共振重点实验室、医学磁共振与分子影像技术研究院的潘丽坤教授、杨光副研究员团队王成龙专任副研和扬州大学的李家宝博士在Chemical Engineering Journal期刊发表题为“Rapidly evaluating electrochemical performance of transition metal disulfides for lithium ion batteries using machine learning classifier”的论文。

图1为论文首页截图
研究人员获取了218种过渡金属二硫化物(TMS2),采用三重标准进行系统性筛选:首先自动提取了文献中普遍提及的4个实验参数(金属电负性、形貌类别、电压窗口、电流密度)并构建218种样本的高质量数据集;其次基于容量等级标准,将连续比容量离散为A–E五档,训练梯度提升分类器(GBC)实现0.97 AUROC的精准预测;最后结合实验验证标准,定向合成花状MoS2、颗粒状CoS2/VS2等代表材料,在0.1–5 A g-1 多电流密度下实测容量等级与模型预测高度吻合。

图2. 用于预测 TMS2电极材料电化学性能的 ML 框架。
创新点
突破数据稀缺瓶颈:构建 “实验驱动” 的机器学习框架
以往的机器学习研究高度依赖DFT(密度泛函理论)计算的微观描述符(如原子间距、轨道特性)。然而,这些参数在以往大量的实验文献中极为罕见,在理论预测与真实实验筛选之间造成了难以逾越的鸿沟。本研究实现关键性的突破在于摆脱了对稀缺计算参数的依赖。我们仅利用实验文献中普遍提及到的四大关键参数(如过渡金属电负性、形貌类别等),成功构建了一个针对数据稀疏性而设计的机器学习分类模型。本工作构建了数据稀疏兼容的机器学习分类模型,解决了实验数据不完整、DFT计算昂贵的问题,实现了从计算驱动到实验驱动的转变。 引入领域知识:分类策略实现卓越的鲁棒性与准确性 在真实的实验数据中,由于合成方法、测试条件的差异,关键性能指标(如电池容量)的报道值往往存在巨大波动。若采用传统的回归模型,极易受到这些“噪声”的干扰。我们将连续容量值离散化为5个等级(A-E),显著提升了模型的鲁棒性和实用性。通过对比K-means聚类,我们发现人工定义的5级分类在AUROC等指标上显著优于数据驱动的自然聚类(AUROC 0.97 vs. 0.87-0.92),这充分证明了将人类经验(领域知识)嵌入模型设计的巨大价值,为材料筛选提供了远比纯数据驱动更准确、更可靠的指引。

图3.数据分析和聚类结果
实验验证的闭环设计
基于特征重要性分析(电负性、形貌为关键),定向合成了花状MoS2、MoS2/CoS2/VS2纳米颗粒,在多种电流密度下测试,实验容量等级与模型预测高度吻合

图4. 材料表征实验结果
结论
本工作的核心创新在于它打破了机器学习材料发现对大量高精度计算数据的依赖。该研究通过融合实验文献数据挖掘、可解释分类模型与定向实验验证,构建了一个低成本、高准确性且易于推广的TMS2电极性能预测工具。利用该工具,研究者无需进行DFT计算或额外表征,仅需输入4个易于通过实验获取的参数,即可在秒级时间内预测材料的容量等级,从而加速候选材料的筛选。该框架可进一步扩展至其他TMDs(如硒化物、碲化物)或电池体系(如钠/钾离子电池),为高通量实验设计提供了新范式。
本文第一作者为华东师范大学在读博士生韩坤。 附文章链接: https://doi.org/10.1016/j.cej.2025.170251