aixiv专栏持续报道全球顶尖ai研究成果。本文介绍由浙江大学和阿里巴巴千问团队合作完成的一项研究,该研究针对大语言模型(llms)预训练数据选择问题,提出了一种名为dataman的数据管理器,用于提升模型训练效率。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

在模型规模不断增长的背景下,预训练数据质量至关重要。然而,现有方法往往依赖经验和直觉,缺乏系统性指导。DataMan通过逆向思维,即分析模型对不同数据质量的反应,来建立一套全面的数据质量评估标准。
一、基于逆向思维的质量标准构建
DataMan的研究人员采用四步法构建质量标准:

二、DataMan数据管理流程
DataMan是一个集数据标注、模型微调和数据采样于一体的数据管理器:

三、实验结果与分析
研究人员使用DataPajama (447B tokens)语料库进行实验,对比了DataMan与其他数据选择方法的性能:





论文信息:
DataMan为大语言模型的预训练数据选择提供了一种新的思路和方法,其在提升模型性能和效率方面具有显著的潜力。
以上就是ICLR 2025|浙大、千问发布预训练数据管理器DataMan,53页细节满满的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号