Anyscale 探索使用合成数据进行直接偏好优化 - Blockchain.News

Anyscale 探索使用合成数据进行直接偏好优化

realtime news Aug 21, 2024 20:38

Anyscale 最新的博客文章深入研究了使用合成数据的直接偏好优化 (DPO),重点介绍了其方法和在调优语言模型中的应用。

Anyscale 探索使用合成数据进行直接偏好优化

据 Anyscale 称,直接偏好优化 (DPO) 已成为一种重要的方法,用于调优语言模型以使其输出符合人类偏好。该公司的最新博客文章提供了一个关于使用合成数据应用 DPO 的深入案例研究,特别是在摘要任务的背景下。

合成数据生成

合成数据生成已成为创建高质量数据集的有力技术。Anyscale 的方法利用 AI 模型作为数据增强器和评判者,以改进后续模型。博客详细描述了合成数据生成的完整流程,强调了 Ray Data 和 vLLM 在扩展和快速实验中的实用性。

DPO 训练与见解

直接偏好优化 (DPO) 提供了复杂性和有效性之间的平衡,使其成为广泛采用的偏好调优算法。Anyscale 已将 DPO 集成到其 LLM 套件中,使用户能够通过直观的 API 构建偏好调优模型。博客涵盖了 DPO 在摘要任务上的建模见解和实验。

评估

Anyscale 使用 Ray Data 和 vLLM 进行批量推理,以大规模评估生成的摘要。评估对于确定模型质量至关重要,Anyscale 强调了与训练目标对齐的任务特定评估的重要性。博客提供了有关设置偏好函数以进行有效评估的关键细节。

与监督微调的比较

博客将 DPO 与传统的监督微调 (SFT) 进行了对比。尽管 SFT 依赖于高质量的数据收集和精确模仿所需行为,偏好调优则关注一个响应是否优于另一个。该方法允许可扩展的数据生成和政策内数据收集,直接解决模型特定问题。

案例研究:摘要

该案例研究将 DPO 应用于 Mistral-7B-instruct-v0.1 模型,用于摘要 CNN 文章。Anyscale 设计了一个合成摘要偏好数据集,使用合成评判者来降低成本,并确保训练和评估之间的一致性。偏好函数结合了字数最小化和问答准确性来评估摘要。

数据生成

Anyscale 使用 Mistral-7B-Instruct-v0.1 模型生成政策内数据用于摘要。该过程涉及为每篇文章生成多个摘要,并使用 Llama-3-70B-Instruct 模型创建和回答关于原文的多项选择题。这种方法确保了多样化的输出和准确的评估。

DPO 训练

Anyscale 在其 LLM 训练后服务中实现了 DPO,使用户能够配置超参数和计算资源以进行训练运行。博客提供了一个 DPO 训练配置的详细示例,强调了 β 超参数和使用 Ray 进行高效训练的重要性。

评估

评估包括计算每个模型的胜率,将 DPO 训练的模型与原始模型和其他基线进行比较。结果表明 DPO 在平衡准确性和压缩方面具有优势,优于 SFT 和 GPT-4o 基线。

见解与挑战

Anyscale 确定了 DPO 训练的关键见解,包括 β 和学习率这两个超参数的关键作用。博客还讨论了失败模式,如冗长的离题结尾和无意义的词语片段,强调了仔细调整和监控超参数的必要性。

迭代政策内训练

博客建议使用迭代政策内训练作为提高 DPO 性能的方法。通过使用微调后的模型重新生成训练数据并应用额外的 DPO 轮次,Anyscale 实现了显著的性能提升,使 DPO 在与传统的 RLHF 方法的竞争中占据优势。

有关完整的详细案例研究和方法论,读者可以参考原始文章 Anyscale

Image source: Shutterstock