ICLR 2025｜浙大、千问发布预训练数据管理器DataMan，53页细节满满-人工智能-PHP中文网

ICLR 2025｜浙大、千问发布预训练数据管理器DataMan，53页细节满满

霞舞

发布： 2025-02-28 14:44:00

原创

563人浏览过

DataMan：提升大语言模型预训练效率的数据管理器

aixiv专栏持续报道全球顶尖ai研究成果。本文介绍由浙江大学和阿里巴巴千问团队合作完成的一项研究，该研究针对大语言模型(llms)预训练数据选择问题，提出了一种名为dataman的数据管理器，用于提升模型训练效率。

DataMan架构图

在模型规模不断增长的背景下，预训练数据质量至关重要。然而，现有方法往往依赖经验和直觉，缺乏系统性指导。DataMan通过逆向思维，即分析模型对不同数据质量的反应，来建立一套全面的数据质量评估标准。

一、基于逆向思维的质量标准构建

DataMan的研究人员采用四步法构建质量标准：

逆向思维流程图

二、DataMan数据管理流程

DataMan是一个集数据标注、模型微调和数据采样于一体的数据管理器：

AssemblyAI

转录和理解语音的AI模型

DataMan数据采样

三、实验结果与分析

研究人员使用DataPajama (447B tokens)语料库进行实验，对比了DataMan与其他数据选择方法的性能：

DataMan显著提升模型性能： 在语言建模、任务泛化和指令遵循等方面，使用DataMan选择的数据训练的模型均优于基线模型，指令遵循任务的胜率高达78.5%。
有效进行领域数据混合： DataMan的领域识别能力可以有效地进行领域数据混合，进一步提升模型在特定领域的性能。
数据量与性能正相关： 使用更大规模的数据集(60B tokens)进行训练，模型性能进一步提升。
PPL与ICL性能的错位分析： 研究分析了困惑度(PPL)与上下文学习(ICL)性能之间的关系，发现域不匹配和ICL任务复杂性是造成错位的主要原因。

实验结果对比图1 实验结果对比图2 实验结果对比图3 实验结果对比图4 实验结果对比图5