摩尔线程 Round Attention：以轮次块稀疏性开辟多轮对话优化新范式-人工智能-PHP中文网

语义完整性: 将 KV 缓存按轮次划分，确保每次 Attention 计算都基于完整的语义单元，提升模型理解能力。
注意力稳定性: 发现并利用了特定“分水岭层”后注意力分布的高度相似性，仅需在此层筛选关键轮次，减少后续计算开销。
存储与传输优化: 将 KV 缓存分块存储于 CPU 内存，并以轮次为单位批量传输，降低了 GPU <a style="color:#f60; text-decoration:underline;" title="内存占用" href="https://www.php.cn/zt/38616.html" target="_blank">内存占用 和数据传输延迟。

摩尔线程 Round Attention：以轮次块稀疏性开辟多轮对话优化新范式

蓮花仙者

发布： 2025-03-05 13:26:18

原创

626人浏览过

摩尔线程科研团队在 arxiv 上发表最新研究成果《round attention：以轮次块稀疏性开辟多轮对话优化新范式》，该方法显著提升了大型语言模型（llm）的多轮对话推理效率。 round attention 的端到端延迟低于现有主流的 flash attention 推理引擎，并大幅降低了 kv 缓存的 gpu 显存占用（节省 55% 到 82%）。

近年来，LLM 的广泛应用凸显了多轮对话场景下两大瓶颈：计算开销巨大和 GPU 内存需求高涨。摩尔线程的 Round Attention 正是针对这两个问题提出的解决方案。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

摩尔线程 Round Attention：以轮次块稀疏性开辟多轮对话优化新范式