微信公众号讲师中心

首页

文章

后端开发 web前端数据库开发工具 php框架常见问题科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程自媒体新闻

专题

后端开发 web前端数据库开发工具 php框架科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程新闻

AI工具

AI 聊天问答 Agent智能体 AI 文本写作 AI 绘画作图 AI 设计工具 AI 视频创作 AI 音频制作 AI 办公学习 AI 编程开发 Prompt指令

学习

大前端后端开发数据库移动端运维开发计算机基础

编程手册

大前端后端开发数据库移动端运维开发计算机基础

下载

js特效网站源码工具下载类库下载网站素材学习资源插件扩展手机/移动开发手机游戏

最近更新

搜索

后端开发 web前端数据库开发工具 php框架常见问题科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程

首页 > 科技周边 > 人工智能 > 正文

李飞飞团队统一动作与语言，新的多模态模型不仅超懂指令，还能读懂隐含情绪

碧海醫心

发布： 2024-12-19 19:39:01

原创

1036人浏览过

斯坦福大学研究团队提出全新多模态语言模型，实现逼真3d人体动作生成与理解。该模型突破性地整合了语音、文本和动作三种模态，能够根据语音和文本指令生成自然流畅的动作，并支持动作编辑。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

模型架构图

研究人员指出，利用语言模型统一人类动作的言语和非言语表达至关重要，因为它能自然地与其他模态连接，并具备强大的语义推理和理解能力。该模型采用两阶段训练：首先进行预训练，对齐不同模态，然后进行下游任务训练，使其遵循各种指令。

预训练流程图

该模型将动作分解为面部、手部、上半身和下半身等不同部位进行token化，再结合文本和语音token化策略，实现多模态输入的统一表示。预训练阶段包含组合动作对齐（空间和时间）和音频-文本对齐两种任务，以学习动作的时空先验和模态间关联。

空间动作对齐示例

时间动作对齐示例

Freepik Mystic

Freepik Mystic

Freepik Mystic 是一款革命性的AI图像生成器，可以直接生成全高清图像

Freepik Mystic

127

Freepik Mystic

实验结果表明，该模型在伴语手势生成等任务上超越现有SOTA模型，尤其在数据稀缺的情况下优势显著。它能够根据语音和文本指令生成协调一致的动作，并支持将“绕圈走”等动作替换为其他动作序列，保持动作的自然流畅。

与其他模型效果对比

与其他模型效果对比

此外，该模型还展现了出色的泛化能力和在动作情绪预测任务中的潜力。这项研究为李飞飞教授的“空间智能”研究目标做出了重要贡献。

论文标题：The Language of Motion: Unifying Verbal and Non-verbal Language of 3D Human Motion
论文地址：https://www.php.cn/link/c5b3966bd2d4c690da368b3ecbece868
项目页面：https://www.php.cn/link/f9ab9a0f7c56435e35dc4dadf0eb6945

以上就是李飞飞团队统一动作与语言，新的多模态模型不仅超懂指令，还能读懂隐含情绪的详细内容，更多请关注php中文网其它相关文章！

相关标签：

git yy Token github https

大家都在看：

百度AI电脑版快速入口百度AIPC版便捷访问百度AIPC版专业入口百度AI电脑版流畅使用百度AI官网流畅入口百度AI官网专业试用 grokai怎么自定义设置_grokai设置自定义调整及个性化选项 gemini2如何输入查询提示_gemini2查询提示输入技巧与优化建议

最佳 Windows 性能的顶级免费优化软件

最佳 Windows 性能的顶级免费优化软件

每个人都需要一台速度更快、更稳定的 PC。随着时间的推移，垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是，许多工具可以让 Windows 保持平稳运行。

来源：php中文网

上一篇：美国考虑禁售TPLink路由器，外交部、商务部回应下一篇：美光推出速率与能效领先的 60TB SSD

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

作者最新文章

Django OAuth2 用户管理：确保身份验证的唯一性与安全性

2025-11-25 12:24:53
Go语言：高效处理HTTP请求中的JSON数组并反序列化为结构体切片

2025-11-25 12:39:37
JavaScript 选项卡式图库中内容（图片与文本）的联动显示与隐藏

2025-11-25 12:42:23
Python Web Scraping：解决动态Meta标签内容不匹配问题

2025-11-25 12:45:01
Python CSV模块如何处理列表数据：深入理解非字符串对象的写入机制

2025-11-25 12:49:28
MyBatis查询日志记录策略：应对海量XML Mapper的挑战

2025-11-25 12:52:22
荣耀500系列正式发布：2亿人像全能实况，2699元起

2025-11-25 12:57:14
PHP 8 动态方法调用：正确语法与常见误区解析

2025-11-25 12:58:01
JavaScript Canvas实现等分旋转圆盘与频闪效应

2025-11-25 13:02:02
PHP中浮点数与带前导零字符串的双向安全转换：API数据处理实践

2025-11-25 13:04:01

最新问题

一文读懂分布式存储：主流技术、适用场景与选型指南（超详细）随着企业数据规模在近几年呈指数级增长，传统单机存储（如本地磁盘、NFS）已经无法满足现代业务“高可用、高性能、可扩展、低成本”的要求。于是，一个技术方向走进大众视野——分布式存储。它让数据不再依赖某一台服务器，而是分散在多台机器上：某台宕机了？业务照样跑数据多？继续加机器就能扩容读写压力大？通过多节点分担今天这篇文章，我们就一次性把主流分布式存储方案、核心原理、使用场景、优缺点和选型建议全部讲清楚。适合作为技术沉淀、架构分享或团队学习文章。一、分布式存储是什么？为什么非它不可？一句话概括：分布式

2025-11-26 11:55:01

518

【容器编排魔法】Docker容器编排神器Componse完全解析！ {\"type\":\"doc\",\"content\":[{\"type\":\"heading\",\"attrs\":{\"id\":\"eaaddd88-46fd-457a-ab28-305a656b26dc\",\"textAlign\":\"justify\",\"indent\":0,\"level\":1,\"isHoverDragHandle\":false},\"content\":[{\"type\":\"text\",\"text\":\"一、前言\"}]},{\"ty

2025-11-26 11:45:37

252

【大模型学习】现代大模型架构（一）: 组注意力机制（GQA）和 RMSNorm 前言✍在大模型论文学习中，相信很多读者和笔者一样，一开始都会有一种感觉：“现在大模型架构都差不多，主要是数据和算力在堆积。”当笔者慢慢总结LLaMA、Qwen、DeepSeek这些模型架构的时候发现，在Attention、位置编码、FFN与归一化上，其实已经悄悄从经典Transformer走到了另一套“默认配置”。相较于最初的Transformer，现在的主流大模型在架构上，已经逐渐从：MQA→GQA（GroupedQueryAttention）绝对位置编码→RoPE（Rotar

2025-11-26 11:41:31

754

构建AI智能体：给词语绘制地图：Embedding如何构建机器的认知空间我们理解“苹果”这个词，能联想到一种水果、一个公司、或者牛顿的故事。但对计算机而言，“苹果”最初只是一个冰冷的符号或一串二进制代码。传统的“One-Hot”编码方式（如“苹果”是[1,0,0,...]，“香蕉”是是[0,1,0,...]）无法表达任何语义，所有词之间的关系都是相等且无关的。如何让机器真正“理解”含义？这就需要一种新的表示方法——Embedding。它就像一套“语义密码”，将单词、图片、声音等一切信息翻译成计算机擅长处理的数字向量，并且这些数字的排列方式还巧

2025-11-26 11:24:15

333

从Java全栈到云原生：一位资深工程师的实战经验分享 {\"type\":\"doc\",\"content\":[{\"type\":\"heading\",\"content\":[{\"text\":\"从Java全栈到云原生：一位资深工程师的实战经验分享\",\"type\":\"text\"}],\"attrs\":{\"isHoverDragHandle\":false,\"textAlign\":\"inherit\",\"indent\":0,\"level\":1,\"id\":\"8cb66025-3e18-4c17-b948-

2025-11-26 10:53:24

801

Shutterstock如何搜索节日主题图片_Shutterstock节日素材筛选与下载技巧答案：通过精准英文关键词和筛选工具高效获取Shutterstock节日图片。输入具体节日英文名如"Christmas"并添加场景或风格描述，结合左侧面板的内容类型、颜色、尺寸等筛选条件快速定位目标素材，注意版权要求与商业使用授权，可借助免费平台寻找替代以控制成本。

2025-11-25 22:13:02

519

夸克AI搜索怎么翻译句子_夸克AI搜索翻译功能使用指南 1、可通过AI对话输入“请将‘Goodmorning,howareyoutoday?’翻译成中文”直接获取译文；2、使用“翻译查词”功能进行精准转换，支持语言选择与发音朗读；3、在浏览器中长按外文句子，点击“翻译”实现划词即时翻译并可替换原文对照阅读。

2025-11-25 22:11:42

1009

百度AI官网PC版入口百度AI官网电脑版链接百度AI官网PC版入口为https://ai.baidu.com/，提供语音识别、图像处理、自然语言理解等技术接口，设有模型训练环境、在线体验中心及详尽开发文档，依托文心大模型体系支持主流框架接入，定期开源前沿模型，并推出智能合同管理、数字员工等企业级解决方案。

2025-11-25 22:10:02

755

deepseek网页版官方入口_deepseek登录使用全解析 deepseek网页版官方入口是https://chat.deepseek.com/，用户可通过手机号验证码、微信扫码或电子邮箱登录，界面简洁，支持多语言切换与会话管理，响应速度快且服务稳定。

2025-11-25 22:10:02

122

天宫AI怎么进行情感分析_天宫AI文本情感判断与分析方法天宫AI通过内置NLP机制识别文本情绪，首先利用预训练模型进行整体情感分类并输出置信度；其次通过句法分析实现细粒度要素提取，精准定位评价对象与情感词；再结合领域自适应策略优化垂直场景准确率；最后融合表情符号等多模态信息进行综合判断。

2025-11-25 22:09:47

275

相关专题

更多>

热门推荐

开源免费商场系统

广告

热门教程

更多>

相关推荐

热门推荐

最新课程

最新下载

更多>

网站特效

网站源码

网站素材

前端模板

关于我们免责申明举报中心意见反馈讲师合作广告合作最新更新 English: php中文网：公益在线php培训，帮助PHP学习者快速成长！; 关注服务号技术交流群

PHP中文网订阅号: 每天精选资源文章推送

PHP中文网APP: 随时随地碎片化学习

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号

PHP学习

技术支持

返回顶部