deepseek开启为期五天的开源成果发布,首个项目——flashmla闪亮登场!这款开源项目融合先进mla算法和gpu优化技术,为大模型推理提供高效、低延迟的解码方案。
FlashMLA专为Hopper架构GPU(如H800 SXM5)优化,旨在显著提升NVIDIA高端显卡上的大模型计算性能,尤其在处理可变长度序列时效率更高。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

PPIO派欧云率先对FlashMLA在主流Hopper GPU(H20、H100、H200、H800)上的性能进行了测试。在查看测试结果前,先了解一些背景知识:
名词解释:Hopper GPU、解码内核和MLA
FlashMLA性能测试结果
DeepSeek官方称FlashMLA在H800 SXM5 GPU上内存速度可达3000 GB/s,计算性能达580 TFLOPS。PPIO派欧云的测试涵盖不同参数配置(批次大小、序列长度、注意力头数量),结果如下:




注:测试基于官方脚本,由于最优参数未知,数据可能未达理论上限。
FlashMLA对主流推理框架的影响
FlashMLA的发布引发了业界关注,主流推理框架vLLM和SGLang均表示积极回应。vLLM团队计划很快集成FlashMLA,因其基于PagedAttention实现,与vLLM技术栈高度兼容。SGLang则已合并FlashInferMLA,性能与FlashMLA相当。
以上就是DeepSeek开源FlashMLA:Hopper GPU解码新标杆,测评大揭秘!的详细内容,更多请关注php中文网其它相关文章!
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号