谷歌发布BIG-Bench超难基准:DeepSeek-R1得分6.8,只有o3-mini超过10分

DDD
发布: 2025-02-28 14:42:01
原创
693人浏览过

谷歌发布超高难度ai基准测试:big-bench extra hard (bbeh),挑战现有模型极限!

近期,谷歌推出全新AI基准测试BBEH,其难度远超现有基准,旨在更精准评估AI模型的高阶推理能力。BBEH基于著名的BIG-Bench Hard (BBH)构建,但每个任务难度大幅提升,为现有模型提供了显著的改进空间。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

图片

BBEH论文一作Mehran Kazemi指出,BBEH比BBH更具挑战性,为所有模型留下了进步空间。DeepMind研究科学家Yi Tay也鼓励AI研究者在其后续论文中采用BBEH基准。

图片图片

BBEH的难度有多高?

目前表现最佳的o3-mini (high)模型得分仅为44.8分(不及格),其他模型得分大多不超过10分!例如,DeepSeek-R1仅得6.8分,谷歌自家的Gemini-2.0-Flash也只有9.8分。值得注意的是,该团队并未公布近期发布的Grok-3和Claude 3.7 Sonnet的测试结果。

图片

BBEH的构建与设计目标

BBEH的出现源于现有基准的局限性。许多评估推理模型的基准,例如数学、科学和编程基准,以及BIG-Bench及其更难的子集BBH,都已接近饱和。领先模型在BBH上的准确率已超过90%。因此,BBEH应运而生,旨在评估更高级的推理能力。

BBEH基于BBH的23个任务构建,但将每个任务替换为难度更高的、测试类似或更多技能的新任务,保证了数据集的多样性。每个任务包含200个问题,歧义QA任务例外,包含120个问题。

SEEK.ai
SEEK.ai

AI驱动的智能数据解决方案,询问您的任何数据并立即获得答案

SEEK.ai 128
查看详情 SEEK.ai

图片图片

模型表现与分析

下表展示了不同模型在BBEH上的准确率:

图片

分析结果显示:

  • 所有模型在BBEH上都有很大的提升空间。
  • 通用模型的最佳性能仅为9.8%的调和平均准确率,推理专用模型表现更好,但最佳性能也只有44.8%。
  • 部分模型准确率甚至低于随机水平,主要原因是模型无法在有效输出token长度内解决问题。
  • 不同模型擅长不同类型的推理。

研究团队还对通用模型与推理模型、模型大小、上下文长度和思考量等因素进行了深入分析,结果表明推理模型在解决形式化问题时优势明显,但在处理复杂现实场景时收益有限。模型大小对性能也有影响,较大模型在处理复合问题时表现更好。上下文长度和思考量对推理模型和通用模型的影响也不同。

图片图片图片

BBEH的发布为AI模型的评估提供了新的标准,也为未来AI模型的研发方向指明了道路。 更多细节请参考论文原文。

以上就是谷歌发布BIG-Bench超难基准:DeepSeek-R1得分6.8,只有o3-mini超过10分的详细内容,更多请关注php中文网其它相关文章!

相关标签:
AI工具
AI工具

AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型,支持联网搜索。

下载
来源:php中文网
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
最新问题
开源免费商场系统广告
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新 English
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号