Llama-3 微调以较低成本达到了 GPT-4 的90%的性能

🔔

🎄

🎁

⭐

NEW

Llama-3 微调以较低成本达到了 GPT-4 的90%的性能 - Blockchain.News

根据 together.ai 的说法，Llama-3 的成功是显著的，展示了开源模型正在逐步赶上其闭源对手。通过利用专有数据，客户能够微调较小的开源软件 (OSS) 模型，如 Llama-3，以达到比顶级闭源模型更高的准确性。

微调过程

Together AI 的平台允许用户在专有数据上微调 Llama-3-8B，创建出性能超过 Llama-3-70B 等较大 OSS 选择并与 GPT-4 等领先闭源模型相当的自定义模型，所有这些都只需较低的成本。一份详细的指南展示了一个微调过的 Llama-3 8B 模型如何从47%的准确率提升到65%，超过了 Llama-3-70B 的64%，并接近 GPT-4 的71%的准确率。

微调过程包括几个步骤，包括数据集转换、上传和验证数据集、启动微调任务以及运行评估以比较结果。第一步需要从 HuggingFace 下载 Math Instruct 数据集，清理并将其转换为适用于 Together 平台的 JSONL 文件格式。

数据集转换

转换过程涉及加载原始 JSON 数据，定义 Llama-3 提示格式，并将数据转换为正确的格式。经过格式化的数据集将用 Together 的 SDK 进行验证，然后上传以进行微调。

上传和微调

一旦准备好数据集，将通过 Python SDK 将其上传到 Together AI。然后使用 Llama-3-8B 基础模型创建微调任务，指定数据集、时期数量和其他参数。用户可以通过 Together AI 的仪表板监控微调任务。

评价和结果

微调后，模型的性能通过 1000 个数学问题进行评估。微调后的 Llama-3-8B 模型的准确率与基础 Llama-3-8B、Llama-3-70B 和 GPT-4 进行了比较。微调后的模型达到了 65.2% 的准确率，超过了基础模型的 47.2% 和 Llama-3-70B 的 64.2%，接近 GPT-4 的 71.4% 的准确率。

结果表明，微调后的 Llama-3-8B 模型比基础模型高了近 20%，超过了顶级 OSS 模型 Llama-3-70B，并达到了 GPT-4 准确率的90%以上。此外，微调后的模型速度更快，比 GPT-4 便宜 50 倍，并提供了完整的模型和权重所有权。

结论

这种微调方法展示了小型开源模型如 Llama-3-8B 可以定制以高准确性、速度和成本效益进行特定任务。用户可以利用其专有数据微调模型，并可以托管在 Together AI 或独立运行，保持完全的控制和所有权。

经过数学问题训练的 Llama-3-8B 模型超过了领先的 OSS 模型，并接近 GPT-4 的性能，在 Together AI 上的总微调成本不到 100 美元。

Image source: Shutterstock

Flash News

Bitcoin Reaches $106k, Solv Protocol Gains Trust with $2.65B in BTC Reserves

12/17/2024 12:49:03 PM

Upcoming Interest Rate Announcements by Major Central Banks

12/17/2024 12:41:38 PM

Pendle Ecosystem Fund Transfers $3.49 Million in PENDLE to Binance

12/17/2024 12:04:17 PM

CryptoMichNL Highlights $LVVA Token Sale and Upcoming TGE

12/17/2024 11:25:30 AM

BitMEX Research Highlights Conflict of Interest at Lego

12/17/2024 11:16:49 AM

Email us at info@blockchain.news