Bee— 清华联合腾讯开源的全栈多模态大模型解决方案-人工智能-PHP中文网

Bee— 清华联合腾讯开源的全栈多模态大模型解决方案

DDD

发布： 2025-11-16 15:25:20

原创

531人浏览过

Bee是什么

bee是由清华大学与腾讯混元团队联合研发的高质量多模态大语言模型（mllm）项目，旨在突破当前开源模型因训练数据质量不足而导致的性能瓶颈。该项目的核心成果包括：honey-data-15m——一个包含约1500万高质量问答对的监督微调数据集，通过多阶段清洗流程和双层思维链（cot）扩展策略显著提升数据质量；honeypipe与datastudio——开源的数据处理管线与框架，提供透明、可复现的数据构建方法；以及bee-8b模型——基于honey-data-15m训练出的8b参数多模态模型，在多项基准测试中创下全开源mllm的新sota记录，其表现甚至媲美部分半开源模型。

百灵大模型

蚂蚁集团自研的多模态AI大模型系列

177

查看详情

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜
Bee的主要功能

构建高质量多模态数据集：推出Honey-Data-15M，规模达1500万的精细化问答对数据集，采用双层思维链（CoT）增强与多重清洗机制，为多模态模型训练提供高信噪比的数据基础。
全流程数据处理工具链：开源HoneyPipe和DataStudio，覆盖从原始数据聚合、噪声过滤到CoT生成与验证的完整流程，推动数据工程标准化，超越传统静态数据集发布方式。
高性能模型训练验证：基于高质量数据训练Bee-8B模型，在多个权威评测中刷新全开源多模态大模型的最佳成绩，验证了“优质数据驱动强模型”的核心理念。
全面开源生态支持：开放完整的资源体系，涵盖数据集、处理工具、训练配置、评估脚本及模型权重，助力学术研究与产业应用共同发展。