NVIDIA 推出 NeMo Curator，用于定制 LLM 数据集的高效微调

NEW

NVIDIA 推出 NeMo Curator，用于定制 LLM 数据集的高效微调 - Blockchain.News

最近，NVIDIA 发布了 NeMo Curator，这是一款强大的工具，旨在方便大型语言模型 (LLM) 和小型语言模型 (SLM) 定制数据集的策展。根据 NVIDIA 技术博客，NeMo Curator 旨在简化预训练和连续训练过程，以及对现有基础模型在特定领域数据集上的微调。

概述

博客文章中展示了使用 NeMo Curator 进行电子邮件分类的示例。这个示例使用了 HuggingFace 上公开可用的 Enron 电子邮件数据集。该数据集包含大约 1,400 条记录，每条记录都被分类到其中一种类别中。数据策展流程包括几个步骤，包括下载、迭代和提取电子邮件数据、统一 Unicode 表示以及过滤掉不相关或质量低的记录。

数据策展的关键步骤

策展过程首先要定义下载器、迭代器和提取器类，将数据集转换为 JSONL 格式。NeMo Curator 支持各种数据处理操作，例如：

下载并将数据集转换为 JSONL 格式。
过滤掉空的或太长的电子邮件。
编辑个人身份信息 (PII)。
添加指令提示并确保格式正确。

该流程的执行效率很高，在消费者级硬件上仅需不到五分钟。

高级微调技术

NVIDIA NeMo Curator 支持参数高效微调 (PEFT) 方法，如 LoRA 和 p-tuning，这对于将 LLM 适应特定领域至关重要。这些方法允许快速迭代和实验超参数和数据处理技术，确保从特定领域数据中有效学习。

实施自定义过滤器和修饰符

自定义过滤器和修饰符在优化数据集中起着重要作用。例如，过滤器可以删除过长或空的电子邮件，而修饰符可以编辑 PII 并添加指令提示。这些操作可以使用 NeMo Curator 的 Sequential 类链接在一起，实现简洁高效的数据策展流程。

实际应用和未来步骤

策展的数据集可用于微调 LLM，例如用于电子邮件分类的 Llama 2 模型。NVIDIA 提供了丰富的资源，包括 NeMo 框架 PEFT 与 Llama 2 手册，帮助开发人员利用这些工具进行他们的机器学习项目。

NVIDIA 还提供了 NeMo Curator 微服务，简化企业定制生成型 AI 的开发。感兴趣的用户可以在 NVIDIA 开发者网站上申请此微服务的早期访问权。

有关 NeMo Curator 及其应用的更多详细信息，请访问 NVIDIA 技术博客。

Image source: Shutterstock

Flash News

Trump's World Liberty Financial Denies Ethereum Sell-off Reports

4/11/2025 8:14:56 AM

China's Response to U.S. Tariff Policies and Its Impact on Cryptocurrency Markets

4/11/2025 8:09:07 AM

China to Raise Tariffs on U.S. Goods to 125% Starting April 12th

4/11/2025 8:03:14 AM

U.S. Dollar Weakness Signals Bullish Trend for Bitcoin and Altcoins

4/11/2025 8:03:00 AM

Gate.io Rebrands to Damen, Signaling Strategic Evolution in Crypto Market

4/11/2025 7:56:26 AM

Email us at info@blockchain.news