根据 together.ai 的说法,Llama-3 的成功是显著的,展示了开源模型正在逐步赶上其闭源对手。通过利用专有数据,客户能够微调较小的开源软件 (OSS) 模型,如 Llama-3,以达到比顶级闭源模型更高的准确性。
微调过程
Together AI 的平台允许用户在专有数据上微调 Llama-3-8B,创建出性能超过 Llama-3-70B 等较大 OSS 选择并与 GPT-4 等领先闭源模型相当的自定义模型,所有这些都只需较低的成本。一份详细的指南展示了一个微调过的 Llama-3 8B 模型如何从47%的准确率提升到65%,超过了 Llama-3-70B 的64%,并接近 GPT-4 的71%的准确率。
微调过程包括几个步骤,包括数据集转换、上传和验证数据集、启动微调任务以及运行评估以比较结果。第一步需要从 HuggingFace 下载 Math Instruct 数据集,清理并将其转换为适用于 Together 平台的 JSONL 文件格式。
数据集转换
转换过程涉及加载原始 JSON 数据,定义 Llama-3 提示格式,并将数据转换为正确的格式。经过格式化的数据集将用 Together 的 SDK 进行验证,然后上传以进行微调。
上传和微调
一旦准备好数据集,将通过 Python SDK 将其上传到 Together AI。然后使用 Llama-3-8B 基础模型创建微调任务,指定数据集、时期数量和其他参数。用户可以通过 Together AI 的仪表板监控微调任务。
评价和结果
微调后,模型的性能通过 1000 个数学问题进行评估。微调后的 Llama-3-8B 模型的准确率与基础 Llama-3-8B、Llama-3-70B 和 GPT-4 进行了比较。微调后的模型达到了 65.2% 的准确率,超过了基础模型的 47.2% 和 Llama-3-70B 的 64.2%,接近 GPT-4 的 71.4% 的准确率。
结果表明,微调后的 Llama-3-8B 模型比基础模型高了近 20%,超过了顶级 OSS 模型 Llama-3-70B,并达到了 GPT-4 准确率的90%以上。此外,微调后的模型速度更快,比 GPT-4 便宜 50 倍,并提供了完整的模型和权重所有权。
结论
这种微调方法展示了小型开源模型如 Llama-3-8B 可以定制以高准确性、速度和成本效益进行特定任务。用户可以利用其专有数据微调模型,并可以托管在 Together AI 或独立运行,保持完全的控制和所有权。
经过数学问题训练的 Llama-3-8B 模型超过了领先的 OSS 模型,并接近 GPT-4 的性能,在 Together AI 上的总微调成本不到 100 美元。
Image source: Shutterstock