探索跳跃式思维链:DeepSeek创造力垫底,Qwen系列接近人类顶尖水平

碧海醫心
发布: 2025-02-28 20:46:21
原创
1047人浏览过

aixiv专栏持续关注并报道全球顶尖ai研究成果。多年来,我们已发布超过2000篇学术及技术文章,涵盖众多高校和企业实验室的领先研究。欢迎优秀研究者投稿或联系我们进行报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

当前,大语言模型(LLM)的创造力(Leap-of-Thought),与逻辑思维能力(Chain-of-Thought)同样重要,却鲜有深入探讨。这制约了LLM创造力发展,主要原因在于缺乏合适的自动化评估方法。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

图片 图 1

以往的LLM创造力评估多采用选择、排序等方法,这些方法虽然适用于逻辑思维能力评估,却难以有效衡量创造力。例如,要求根据图片和文字补充一句话,使其富有创造力和幽默感。如果提供选项“A. 可以帮忙扶一下我吗?”和“B. 可以帮我解开手铐吗?”,LLM可能无需创造力便选择B,因为B更独特。图片 图 2

LLM创造力评估应侧重于“生成创新内容的能力”,而非“判断创新内容的能力”。目前,人类评估和LLM-as-a-judge两种方法较为常用。人类评估准确率高,但成本高且不可持续;LLM-as-a-judge方法(通过zero-shot或fine-tuning LLM进行评分)尚处于初级阶段,稳定性不足。

为此,来自中大、哈佛、鹏城和新加坡管理大学的研究者提出了一种新的评估范式——LoTbench。该方法通过研究LLM生成高质量创新内容所需的“代价”(即LLM生成内容与人类水平创新内容的差距)来评估创造力,并已发表在IEEE TPAMI期刊上。图片

任务场景及内容

LoTbench基于CVPR'24的“梗王”大模型研究(Let's Think Outside the Box: Exploring Leap-of-Thought in Large Language Models with Creative Humor Generation),其核心任务是根据图片和文字补充一句话,使其富有创造力和幽默感(类似于日本“大喜利”游戏)。此类任务具有以下特点:

  1. 高度依赖创造力;
  2. 适合多模态LLM的输入输出格式;
  3. 拥有大量高质量人类标注数据。

LoTbench通过计算LLM生成高质量创新内容所需的轮数来衡量创造力。轮数越少,创造力越高;轮数无限则创造力为零。图片 图 3 图片 图 4

LoTbench的具体流程如图4所示,包括:

  1. 选择高质量人类创新内容(HHCR)数据;
  2. LLM多轮生成响应,判断是否与HHCR“异曲同工”(DAESO);
  3. LLM提出疑问,系统根据HHCR返回答案;
  4. 更新交互信息,循环步骤1。

创造力分数Sc的计算考虑了HHCR样本数量和重复实验次数。图片

Qwen
Qwen

阿里巴巴推出的一系列AI大语言模型和多模态模型

Qwen 118
查看详情 Qwen

异曲同工之妙(DAESO)的判断

由于创造力任务的多样性,需要判断两个响应是否“异曲同工”。这需要满足两个条件:

  1. 相同的核心创新解释;
  2. 相同的功能相似性。

功能相似性与语义相似性有所不同。图片 图 5 图片 图 6

通过对HHCR进行详细解释标注,并利用LLM构建因果链条,可以实现对DAESO的判断。基于GPT-4,准确率可达80%-90%。

测评结果

LoTbench对主流LLM的测评结果显示,当前LLM的创造力仍有提升空间,但具备超越人类的潜力。图片 图 7 图片 图 8 更多细节请参考原文。

以上就是探索跳跃式思维链:DeepSeek创造力垫底,Qwen系列接近人类顶尖水平的详细内容,更多请关注php中文网其它相关文章!

AI工具
AI工具

AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型,支持联网搜索。

下载
来源:php中文网
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
最新问题
开源免费商场系统广告
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新 English
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号