蚂蚁与中国人民大学发布首个原生 MoE 扩散语言模型-IT新闻-PHP中文网

蚂蚁与中国人民大学发布首个原生 MoE 扩散语言模型

碧海醫心

发布： 2025-09-12 12:11:01

原创

781人浏览过

蚂蚁与中国人民大学发布首个原生 moe 扩散语言模型

蚂蚁集团联合中国人民大学正式发布业界首个基于原生MoE架构的扩散语言模型（dLLM）——“LLaDA-MoE”。

该模型采用非自回归的掩码扩散机制，突破了传统语言模型依赖自回归生成的固有范式，在上下文学习、指令理解、代码生成与数学推理等多项核心能力上达到与Qwen2.5系列相当的水平，有力挑战了“语言生成必须逐字递进”的主流观点。

实验结果表明，LLaDA-MoE在代码编写、数学解题及智能Agent任务中的表现显著优于LLaDA1.0/1.5和Dream-7B等现有扩散语言模型，并在多项指标上接近甚至超越自回归模型Qwen2.5-3B-Instruct。值得注意的是，该模型仅需激活1.4B参数即可实现与3B全参数稠密模型相媲美的性能，充分展现了MoE架构在提升计算效率方面的优势。

“LLaDA-MoE的成功训练验证了dLLM在工业级大规模场景下的可扩展性与稳定性，标志着我们在通往更大规模扩散语言模型的路上迈出了关键一步。”蚂蚁集团通用人工智能研究中心主任、西湖大学特聘研究员、西湖心辰创始人蓝振忠在发布会上表示。