最近,NVIDIA 发布了 NeMo Curator,这是一款强大的工具,旨在方便大型语言模型 (LLM) 和小型语言模型 (SLM) 定制数据集的策展。根据 NVIDIA 技术博客,NeMo Curator 旨在简化预训练和连续训练过程,以及对现有基础模型在特定领域数据集上的微调。
概述
博客文章中展示了使用 NeMo Curator 进行电子邮件分类的示例。这个示例使用了 HuggingFace 上公开可用的 Enron 电子邮件数据集。该数据集包含大约 1,400 条记录,每条记录都被分类到其中一种类别中。数据策展流程包括几个步骤,包括下载、迭代和提取电子邮件数据、统一 Unicode 表示以及过滤掉不相关或质量低的记录。
数据策展的关键步骤
策展过程首先要定义下载器、迭代器和提取器类,将数据集转换为 JSONL 格式。NeMo Curator 支持各种数据处理操作,例如:
- 下载并将数据集转换为 JSONL 格式。
- 过滤掉空的或太长的电子邮件。
- 编辑个人身份信息 (PII)。
- 添加指令提示并确保格式正确。
该流程的执行效率很高,在消费者级硬件上仅需不到五分钟。
高级微调技术
NVIDIA NeMo Curator 支持参数高效微调 (PEFT) 方法,如 LoRA 和 p-tuning,这对于将 LLM 适应特定领域至关重要。这些方法允许快速迭代和实验超参数和数据处理技术,确保从特定领域数据中有效学习。
实施自定义过滤器和修饰符
自定义过滤器和修饰符在优化数据集中起着重要作用。例如,过滤器可以删除过长或空的电子邮件,而修饰符可以编辑 PII 并添加指令提示。这些操作可以使用 NeMo Curator 的 Sequential 类链接在一起,实现简洁高效的数据策展流程。
实际应用和未来步骤
策展的数据集可用于微调 LLM,例如用于电子邮件分类的 Llama 2 模型。NVIDIA 提供了丰富的资源,包括 NeMo 框架 PEFT 与 Llama 2 手册,帮助开发人员利用这些工具进行他们的机器学习项目。
NVIDIA 还提供了 NeMo Curator 微服务,简化企业定制生成型 AI 的开发。感兴趣的用户可以在 NVIDIA 开发者网站上申请此微服务的早期访问权。
有关 NeMo Curator 及其应用的更多详细信息,请访问 NVIDIA 技术博客。
Image source: Shutterstock