微信公众号讲师中心

首页

文章

后端开发 web前端数据库开发工具 php框架常见问题科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程自媒体新闻

专题

后端开发 web前端数据库开发工具 php框架科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程新闻

AI工具

AI 聊天问答 Agent智能体 AI 文本写作 AI 绘画作图 AI 设计工具 AI 视频创作 AI 音频制作 AI 办公学习 AI 编程开发 Prompt指令

学习

大前端后端开发数据库移动端运维开发计算机基础

编程手册

大前端后端开发数据库移动端运维开发计算机基础

下载

js特效网站源码工具下载类库下载网站素材学习资源插件扩展手机/移动开发手机游戏

最近更新

搜索

后端开发 web前端数据库开发工具 php框架常见问题科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程

首页 > 科技周边 > 人工智能 > 正文

引入国产开源MoE大模型，其性能媲美Llama 2-7B，同时计算量减少了60%

PHPz

发布： 2024-01-15 21:36:14

转载

1167人浏览过

开源moe模型，终于迎来首位国产选手！

它的表现完全不输给密集的Llama 2-7B模型，计算量却仅有40%。

这个模型堪称19边形战士，特别是在数学和代码能力上对Llama形成了碾压。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

首个国产开源MoE大模型来了！性能媲美Llama 2-7B，计算量降低60%

它就是深度求索团队最新开源的160亿参数专家模型DeepSeek MoE。

除了性能上表现优异，DeepSeek MoE主打的就是节约计算量。

在这张表现-激活参数量图中，它“一枝独秀”地占据了左上角的大片空白区。

首个国产开源MoE大模型来了！性能媲美Llama 2-7B，计算量降低60%

发布仅一天，DeepSeek团队在X上的推文就有大量转发关注。

首个国产开源MoE大模型来了！性能媲美Llama 2-7B，计算量降低60%

JP摩根的机器学习工程师Maxime Labonne测试后也表示，DeepSeek MoE的chat版本表现要略胜于微软的“小模型”Phi-2。

首个国产开源MoE大模型来了！性能媲美Llama 2-7B，计算量降低60%

同时，DeepSeek MoE还在GitHub上获得了300+星标，并登上了Hugging Face文本生成类模型排行榜的首页。

首个国产开源MoE大模型来了！性能媲美Llama 2-7B，计算量降低60%

那么，DeepSeek MoE的具体表现究竟怎么样呢？

计算量减少60%

DeepSeek MoE目前推出的版本参数量为160亿，实际激活参数量大约是28亿。

与自家的7B密集模型相比，二者在19个数据集上的表现各有胜负，但整体比较接近。

而与同为密集模型的Llama 2-7B相比，DeepSeek MoE在数学、代码等方面还体现出来明显的优势。

但两种密集模型的计算量都超过了180TFLOPs每4k token，DeepSeek MoE却只有74.4TFLOPs，只有两者的40%。

首个国产开源MoE大模型来了！性能媲美Llama 2-7B，计算量降低60%

在20亿参数量时进行的性能测试显示，DeepSeek MoE同样能以更少的计算量，达到与1.5倍参数量、同为MoE模型的GShard 2.8B相当甚至更好的效果。

首个国产开源MoE大模型来了！性能媲美Llama 2-7B，计算量降低60%

此外深度求索团队还基于SFT微调除了DeepSeek MoE的Chat版本，表现同样接近自家密集版本和Llama 2-7B。

首个国产开源MoE大模型来了！性能媲美Llama 2-7B，计算量降低60%

此外，深度求索团队还透露，DeepSeek MoE模型还有145B版本正在研发。

Tellers AI

Tellers AI

Tellers是一款自动视频编辑工具，可以将文本、文章或故事转换为视频。

Tellers AI

78

Tellers AI

阶段性的初步试验显示，145B的DeepSeek MoE对GShard 137B具有极大的领先优势，同时能够以28.5%的计算量达到与密集版DeepSeek 67B模型相当的性能。

研发完毕后，团队也将对145B版本进行开源。

首个国产开源MoE大模型来了！性能媲美Llama 2-7B，计算量降低60%

而在这些模型表现的背后，是DeepSeek全新的自研MoE架构。

自研MoE新架构

首先是相比于传统的MoE架构，DeepSeek拥有更细粒度专家划分。

在总参数量一定的情况下，传统模型分出N个专家，而DeepSeek可能分出2N个。

同时，每次执行任务时选择的专家数量也是传统模型的2倍，所以总体使用的参数量也不变，但选择的自由度增加了。

这种分割策略允许更灵活和适应性的激活专家组合，从而提高了模型在不同任务上的准确性和知识获取的针对性。

首个国产开源MoE大模型来了！性能媲美Llama 2-7B，计算量降低60%

除了专家划分上的差异，DeepSeek还创新性地引入了“共享专家”的设置。

这些共享专家对所有输入的token激活，不受路由模块影响，目的是捕获和整合在不同上下文中都需要的共同知识。

通过将这些共享知识压缩到共享专家中，可以减少其他专家之间的参数冗余，从而提高模型的参数效率。

共享专家的设置有助于其他专家更加专注于其独特的知识领域，从而提高整体的专家专业化水平。

首个国产开源MoE大模型来了！性能媲美Llama 2-7B，计算量降低60%

消融实验结果表明，这两个方案都为DeepSeek MoE的“降本增效”起到了重要作用。

首个国产开源MoE大模型来了！性能媲美Llama 2-7B，计算量降低60%

论文地址：https://arxiv.org/abs/2401.06066。

参考链接：https://mp.weixin.qq.com/s/T9-EGxYuHcGQgXArLXGbgg。

以上就是引入国产开源MoE大模型，其性能媲美Llama 2-7B，同时计算量减少了60%的详细内容，更多请关注php中文网其它相关文章！

相关标签：

人工智能 deepseek 架构 Token github https llama

大家都在看：

早报：华为乾崑推出两大全新汽车品牌魅族回应出售总部松鼠ai官网教育平台入口_松鼠ai官方网站网址在线访问 SAM 3— Meta开源的视觉分割模型秘塔AI写作入口app 秘塔AI免费写作入口app登录链接华为AI眼镜如何使用视频通话功能_华为AI眼镜视频通话连接与操作教程

数码产品性能查询

数码产品性能查询

该软件包括了市面上所有手机CPU，手机跑分情况，电脑CPU，电脑产品信息等等，方便需要大家查阅数码产品最新情况，了解产品特性，能够进行对比选择最具性价比的商品。

来源：51CTO.COM网

上一篇：揭示基础模型与机器人发展道路的综述下一篇：侯震宇宣布百度推出多款AI原生云产品，正致力于重塑云计算中的大模型技术

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

作者最新文章

如何让你的电商前端快如闪电：SprykerTouch模块与Composer助力数据同步挑战

2025-09-12 09:46:23
如何解决复杂应用中动态URL和重定向管理难题，使用spryker/url模块轻松搞定

2025-09-12 10:39:18
如何在Spryker项目中实现前端与后端高效通信？Spryker/Zed-Request与Composer助你轻松连接！

2025-09-12 12:40:23
如何高效生成唯一ID？Ramsey/Uuid助你解决分布式系统中的ID难题

2025-09-13 09:51:02
Yii2数据库迁移总是手动写？insolita/yii2-migration-generator助你告别繁琐，实现自动化！

2025-09-15 09:38:09
如何解决复杂系统可视化难题，Spryker/Graphviz助你轻松绘制依赖与状态图

2025-09-15 09:52:48
如何高效生成订单/发票号？SprykerSequenceNumber模块助你轻松搞定

2025-09-16 10:01:19
如何解决电商平台商品属性管理混乱的问题，使用SprykerProductAttribute模块助你实现灵活高效的数据管理

2025-09-16 12:23:02
解锁夸克浏览器AI搜索新功能_掌握夸克AI搜索的进阶玩法

2025-10-13 17:08:01
升级夸克浏览器体验AI搜索_夸克AI搜索核心功能深度解析

2025-10-28 20:58:02

最新问题

特斯拉Model S/X新增冰霜、蓝星钻黑车漆续航达715公里 11月21日，特斯拉正式宣布对ModelS与ModelX进行产品升级。本次更新不仅新增了冰霜蓝和星钻黑两款全新车身配色，还首次引入了动态氛围灯设计，进一步提升车内科技感与豪华氛围。特斯拉ModelX据获悉，此次改款在驾乘体验方面也进行了优化。ModelS和ModelX的悬挂系统经过重新调校，在行驶舒适性与座舱静谧性上均有明显提升，为用户带来更高级的出行感受。根据特斯拉中国官网公布的信息，新款星钻黑配色的ModelX全轮驱动版起售价为89.59万元。该车型CLTC工况下续航里程可达700公里，最

2025-11-21 12:41:02

961

SAM 3D— Meta开源的3D生成模型 SAM3D是由Meta开发的前沿3D生成模型，涵盖两个核心子模型：SAM3DObjects和SAM3DBody。前者能够从单张图像中重建物体与场景的三维结构，具备多视角一致性与处理复杂遮挡的能力；后者专注于高精度还原人体姿态、骨骼及网格信息，适用于虚拟人、动作捕捉等应用。该模型依托大规模数据训练和多任务学习机制，展现出卓越的泛化性与鲁棒性，广泛服务于数字孪生、机器人视觉、AR/VR内容创作等领域，为各类3D视觉任务提供坚实的技术支撑。SAM3D的核心功能SAM3DObj

2025-11-21 12:34:35

897

小米汽车副总裁：SU7拿下中国20万＋轿车销量第一 11月21日上午9点，广州车展小米汽车展台上，小米汽车副总裁李肖爽正式宣布：小米SU7已登顶中国20万元以上轿车市场销量冠军（不区分动力类型）。作为小米首款C级高性能生态科技纯电轿跑，SU7目前推出标准版（21.59万元）、Pro版（24.59万元）以及Max版（29.99万元）三种配置，满足不同用户需求。小米SU7整车尺寸为长4997mm、宽1963mm、高1440mm或1455mm，轴距达到3000mm，拥有低至0.195Cd的风阻系数。外观方面提供海湾蓝、雅灰、橄榄绿等多种车身颜色，标配半

2025-11-21 12:29:47

545

再度引领行业！靳玉志：华为鸿蒙智能座舱迈入L3时代 11月20日晚，备受瞩目的“2025华为乾崑生态大会”在广州盛大启幕。本次大会以“乾崑生态共赴热爱”为核心主题，集中呈现了华为在智能出行领域的前沿探索与创新成果。在会上，华为智能汽车解决方案BU首席执行官靳玉志正式宣布：鸿蒙智能座舱已率先迈入L3智能化阶段。据官方披露，全新升级的鸿蒙座舱采用混合大模型MoLA架构，深度融合大模型技术，构建出具备感知、记忆、理解、联接、决断和执行六大核心能力的“类人智能”交互体系。基于此架构，语音助手小艺现已能够精准识别模糊语义——当用户表示“有点冷”时，系统可自

2025-11-21 12:28:01

361

华为乾崑生态大会亮点汇总两大品牌问世座舱进入L3时代 11月20日19时，2025华为乾崑生态大会在广州盛大启幕。本次大会以“乾崑生态共赴热爱”为主题，秉持“让出行更安全，生活更美好”的核心理念，从技术、商业与产业三大维度全面呈现了华为在智能汽车领域的前沿探索与创新成果。华为智能汽车解决方案BUCEO靳玉志在会上揭晓多项关键进展：鸿蒙智能座舱正式迈入L3“专业助理”时代；乾崑智驾ADS合作车型10月单月销量突破10万辆，市场占有率稳居国内榜首；同时，由华为联合广汽、东风分别打造的全新高端汽车品牌——“启境”与“奕境”首次公开亮相，标志着华为乾崑生态

2025-11-21 12:14:08

111

华为乾崑发布“境”系列新品牌以生态推动智能出行新境界 11月20日，主题为“乾崑生态共赴热爱”的2025华为乾崑生态大会在广州盛大召开。值得关注的是，本次大会首次揭晓了两个全新智能汽车品牌：由广汽与华为乾崑联手打造的高端新能源品牌“启境”，以及东风与华为合作推出的“奕境”。这两个品牌共同组成了全新的“境”系列，标志着华为乾崑在汽车智能化领域的合作布局迈上新台阶。对于此次品牌发布，华为智能汽车解决方案BUCEO靳玉志强调：“我们将从产品定义、研发到上市后的服务全流程深度参与，全面赋能合作伙伴。”广汽集团董事长冯兴亚也透露，启境品牌的首款车型预计于20

2025-11-21 12:10:02

869

早报：华为乾崑推出两大全新汽车品牌魅族回应出售总部【小编科技早报】近日，华为乾崑携手广汽集团推出全新高端智能新能源汽车品牌“启境”；小鹏汽车发布X9超级增程MPV，刷新全球大七座车型续航纪录；有消息称珠海唐家湾一处办公园区挂牌出售，疑似魅族总部，官方已回应；网易公布2024年第三季度财报，净收入达284亿元，同比增长8.2%。华为靳玉志：乾崑有境界，“境”系列双品牌开启智能化新篇章11月20日，以“乾崑生态共赴热爱”为主题的“2025华为乾崑生态大会”在广州正式举行。会上，华为乾崑全面展示了其在技术、商业与产业生态领域的最新成果。备受关注的是，

2025-11-21 12:03:02

873

松鼠ai官网教育平台入口_松鼠ai官方网站网址在线访问松鼠AI官网教育平台入口地址是http://www.squirrel.com/，该平台提供个性化学习路径规划、智能化内容推荐及实时学习反馈，助力学生高效学习。

2025-11-21 11:56:02

456

SAM 3— Meta开源的视觉分割模型 SAM3是什么SAM3（SegmentAnythingModel3）是MetaAI推出的最新一代计算机视觉模型，具备通过文本指令、示例输入以及视觉提示对图像和视频中的对象进行精准检测、分割与持续跟踪的能力。该模型支持开放词汇的自然语言输入，融合多模态信息实现智能交互，并可在运行过程中实时调整和优化分割结果。在性能方面，SAM3在图像与视频分割任务中表现远超前代系统，效率提升达两倍以上，同时支持零样本迁移学习。此外，其能力已拓展至3D重建领域，广泛服务于虚拟家居预览、创意视频编辑及科

2025-11-21 11:29:49

809

贾跃亭宣布FF控股公司更名AIxCrypto 启动双轮驱动战略 11月21日，FaradayFuture（FF）创始人贾跃亭在社交平台发布消息，宣布其控股公司已正式更名为AIxCrypto，并成功登陆纳斯达克。这一动作意味着FFAI与AIXC“双飞轮、双桥梁、双上市”战略架构全面实现，企业正式进入EAI与Crypto双向驱动的新纪元。贾跃亭表示，该体系致力于将Web3的颠覆性价值引入Web2生态，同时为Web3注入来自Web2的场外增量资源。据官方信息显示，AIxCrypto将启动“三驾马车”全新发展战略。其中，第二板块将聚焦现实世界资产代币化（RWA），首

2025-11-21 11:25:42

427

相关专题

更多>

热门推荐

开源免费商场系统

广告

热门教程

更多>

相关推荐

热门推荐

最新课程

最新下载

更多>

网站特效

网站源码

网站素材

前端模板

关于我们免责申明举报中心意见反馈讲师合作广告合作最新更新 English: php中文网：公益在线php培训，帮助PHP学习者快速成长！; 关注服务号技术交流群

PHP中文网订阅号: 每天精选资源文章推送

PHP中文网APP: 随时随地碎片化学习

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号

PHP学习

技术支持

返回顶部