Game-TARS -字节跳动推出的通用型游戏智能体-人工智能-PHP中文网

Game-TARS -字节跳动推出的通用型游戏智能体

霞舞

发布： 2025-11-03 14:49:20

原创

660人浏览过

Game-TARS是什么

game-tars是由字节跳动seed团队研发的通用游戏智能体，采用统一的键盘与鼠标动作空间进行训练，能够在操作系统、网页及模拟环境中完成大规模预训练。依托超过5000亿标注量的多模态数据，并结合稀疏推理机制与衰减持续损失函数，显著增强了智能体的可扩展性与泛化能力。其核心突破在于让ai以人类的方式使用键盘和鼠标操作游戏，通过模拟真实用户的行为路径执行每一个动作，实现了与人类物理交互方式的高度对齐。在fps、开放世界以及web类游戏中，game-tars的表现已超越gpt-5、gemini-2.5-pro和claude-4-sonnet等主流大模型。

文心智能体平台

百度推出的基于文心大模型的Agent智能体平台，已上架2000+AI智能体

查看详情

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜
Game-TARS的主要功能

跨平台游戏操作能力：基于统一的输入动作空间，Game-TARS可在PC、网页、模拟器等多种环境下直接操控游戏，无需为不同平台定制脚本，实现高效的自动化测试与交互。
海量多模态数据驱动：利用超5000亿规模的多模态标注数据进行预训练，涵盖游戏行为轨迹、GUI操作记录等多元信息，赋予智能体强大的环境适应力与任务泛化能力。
高效稀疏化推理机制：采用“稀疏思维”策略，在关键决策节点才启动深度推理，并结合拒绝微调技术优化推理流程，提升响应速度与动作执行的实用性。
双层记忆架构设计：集成短期视觉记忆与长期语义记忆系统，短期记忆存储最新画面帧，长期记忆保留提炼后的稀疏思维文本，支持复杂长周期任务的记忆延续。
零样本迁移表现优异：经过广泛预训练后，Game-TARS可在未接触过的3D网页游戏中直接运行，无需额外训练即可完成目标任务，展现极强的跨环境泛化性能。
精准指令理解与执行：通过随机化按键映射等方式增强指令遵循能力，使智能体能准确解析系统提示中的动作语义，确保在多样化游戏场景中稳定执行用户指令。

Game-TARS的技术原理

原生人机交互动作空间：使用mouseMove、mouseClick、keyPress等标准输入事件作为动作单元，与人类操作完全对齐，摆脱特定平台或应用依赖，实现真正的跨平台通用性。
大规模多模态预训练：整合超过5000亿标记的游戏轨迹、界面交互、代码生成与科研任务数据，构建统一训练语料，全面提升智能体的认知广度与任务适应性。
稀疏思维推理架构：仅在必要时刻激活深层推理模块，减少冗余计算，配合拒绝微调进一步精炼决策逻辑，实现高效率与高质量动作输出的平衡。
视觉语言模型一体化：将视觉感知、策略规划、动作控制与记忆管理统一于一个视觉语言模型（VLM）框架内，无需针对单个游戏编写规则或代码，实现自主学习与执行。
单阶段持续预训练范式：采用统一的数据融合与训练流程，所有任务类型共用同一训练管道，在单一阶段完成全面能力塑造，并在后续阶段强化特定交互技能。
长短时记忆协同机制：短期记忆缓存实时图像输入，长期记忆沉淀关键决策思路与上下文摘要，形成闭环记忆结构，支撑长时间序列任务的连贯执行。