ICRA 2025｜清华x光轮：自驾世界模型生成和理解事故场景-人工智能-PHP中文网

ICRA 2025｜清华x光轮：自驾世界模型生成和理解事故场景

DDD

发布： 2025-03-03 23:40:02

原创

1048人浏览过

aixiv专栏持续报道全球顶尖ai研究成果，已收录2000余篇来自高校和企业实验室的学术技术文章，助力学术交流与传播。欢迎投稿或联系报道，邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

自动驾驶技术飞速发展，但复杂交通环境下的事故理解和预防仍是巨大挑战。例如，特斯拉FSD在中国市场的表现引发热议，其频繁违规行为凸显了现有方法的局限性。事故数据稀缺也限制了自动驾驶系统应对突发事件的能力。

为此，光轮智能（Lightwheel）联合清华、香港科技大学等高校研究团队，研发了AVD2（Accident Video Diffusion for Accident Video Description）框架，提升自动驾驶事故场景的安全性能。

AVD2是一个创新的事故视频生成与描述框架，通过生成与自然语言描述高度一致的事故视频，增强对事故场景的建模能力。团队同时贡献了EMM-AU（Enhanced Multi-Modal Accident Video Understanding）数据集，推动事故分析和预防研究。

AVD2框架架构

AVD2框架由视频生成和事故分析两部分组成。视频生成部分利用Open-Sora 1.2模型，通过两阶段微调，基于MM-AU数据集预训练，再用2000个真实事故视频进行精调，生成高保真事故视频。为了提升视频质量，采用RRDBNet模型进行超分辨率处理。

事故分析部分结合视频理解和自然语言处理技术，完成两个任务：

车辆行为描述和原因分析（及规避方法）： 生成描述车辆行为的句子和原因解释，并提出规避事故的建议。
多任务学习与文本生成： 使用Vision-Language Transformer进行多任务学习，联合训练行为描述和原因解释（预防措施）任务，提高整体性能。 SCST机制优化文本生成质量。