谷歌发布超高难度ai基准测试:big-bench extra hard (bbeh),挑战现有模型极限!
近期,谷歌推出全新AI基准测试BBEH,其难度远超现有基准,旨在更精准评估AI模型的高阶推理能力。BBEH基于著名的BIG-Bench Hard (BBH)构建,但每个任务难度大幅提升,为现有模型提供了显著的改进空间。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

BBEH论文一作Mehran Kazemi指出,BBEH比BBH更具挑战性,为所有模型留下了进步空间。DeepMind研究科学家Yi Tay也鼓励AI研究者在其后续论文中采用BBEH基准。


BBEH的难度有多高?
目前表现最佳的o3-mini (high)模型得分仅为44.8分(不及格),其他模型得分大多不超过10分!例如,DeepSeek-R1仅得6.8分,谷歌自家的Gemini-2.0-Flash也只有9.8分。值得注意的是,该团队并未公布近期发布的Grok-3和Claude 3.7 Sonnet的测试结果。

BBEH的构建与设计目标
BBEH的出现源于现有基准的局限性。许多评估推理模型的基准,例如数学、科学和编程基准,以及BIG-Bench及其更难的子集BBH,都已接近饱和。领先模型在BBH上的准确率已超过90%。因此,BBEH应运而生,旨在评估更高级的推理能力。
BBEH基于BBH的23个任务构建,但将每个任务替换为难度更高的、测试类似或更多技能的新任务,保证了数据集的多样性。每个任务包含200个问题,歧义QA任务例外,包含120个问题。


模型表现与分析
下表展示了不同模型在BBEH上的准确率:

分析结果显示:
研究团队还对通用模型与推理模型、模型大小、上下文长度和思考量等因素进行了深入分析,结果表明推理模型在解决形式化问题时优势明显,但在处理复杂现实场景时收益有限。模型大小对性能也有影响,较大模型在处理复合问题时表现更好。上下文长度和思考量对推理模型和通用模型的影响也不同。



BBEH的发布为AI模型的评估提供了新的标准,也为未来AI模型的研发方向指明了道路。 更多细节请参考论文原文。
以上就是谷歌发布BIG-Bench超难基准:DeepSeek-R1得分6.8,只有o3-mini超过10分的详细内容,更多请关注php中文网其它相关文章!
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号