NVIDIA 推出 NeMo Curator,用于定制 LLM 数据集的高效微调 - Blockchain.News

NVIDIA 推出 NeMo Curator,用于定制 LLM 数据集的高效微调

realtime news Aug 01, 2024 03:07

NVIDIA 的 NeMo Curator 提供了一种简化的方法,通过定制数据集微调大型语言模型 (LLM),优化机器学习工作流程。

NVIDIA 推出 NeMo Curator,用于定制 LLM 数据集的高效微调

最近,NVIDIA 发布了 NeMo Curator,这是一款强大的工具,旨在方便大型语言模型 (LLM) 和小型语言模型 (SLM) 定制数据集的策展。根据 NVIDIA 技术博客,NeMo Curator 旨在简化预训练和连续训练过程,以及对现有基础模型在特定领域数据集上的微调。

概述

博客文章中展示了使用 NeMo Curator 进行电子邮件分类的示例。这个示例使用了 HuggingFace 上公开可用的 Enron 电子邮件数据集。该数据集包含大约 1,400 条记录,每条记录都被分类到其中一种类别中。数据策展流程包括几个步骤,包括下载、迭代和提取电子邮件数据、统一 Unicode 表示以及过滤掉不相关或质量低的记录。

数据策展的关键步骤

策展过程首先要定义下载器、迭代器和提取器类,将数据集转换为 JSONL 格式。NeMo Curator 支持各种数据处理操作,例如:

  1. 下载并将数据集转换为 JSONL 格式。
  2. 过滤掉空的或太长的电子邮件。
  3. 编辑个人身份信息 (PII)。
  4. 添加指令提示并确保格式正确。

该流程的执行效率很高,在消费者级硬件上仅需不到五分钟。

高级微调技术

NVIDIA NeMo Curator 支持参数高效微调 (PEFT) 方法,如 LoRA 和 p-tuning,这对于将 LLM 适应特定领域至关重要。这些方法允许快速迭代和实验超参数和数据处理技术,确保从特定领域数据中有效学习。

实施自定义过滤器和修饰符

自定义过滤器和修饰符在优化数据集中起着重要作用。例如,过滤器可以删除过长或空的电子邮件,而修饰符可以编辑 PII 并添加指令提示。这些操作可以使用 NeMo Curator 的 Sequential 类链接在一起,实现简洁高效的数据策展流程。

实际应用和未来步骤

策展的数据集可用于微调 LLM,例如用于电子邮件分类的 Llama 2 模型。NVIDIA 提供了丰富的资源,包括 NeMo 框架 PEFT 与 Llama 2 手册,帮助开发人员利用这些工具进行他们的机器学习项目。

NVIDIA 还提供了 NeMo Curator 微服务,简化企业定制生成型 AI 的开发。感兴趣的用户可以在 NVIDIA 开发者网站上申请此微服务的早期访问权。

有关 NeMo Curator 及其应用的更多详细信息,请访问 NVIDIA 技术博客

Image source: Shutterstock