AMD 推出 AMD-135M:小型语言模型的突破

realtime news  Sep 28, 2024 15:51  UTC 07:51

1 Min Read

在人工智能领域的一个重大进展中,AMD 宣布发布其首个小型语言模型(SLM)AMD-135M。据AMD.com报道,该新模型旨在提供专门化能力,同时解决 GPT-4 和 Llama 等大型语言模型(LLM)面临的一些限制。

AMD-135M:首个 AMD 小型语言模型

作为 Llama 家族的一员,AMD-135M 是 AMD 在 SLM 领域的首创。该模型使用 AMD Instinct™ MI250 加速器和 6700 亿个标记从零开始进行训练。训练过程产生了两个不同的模型:AMD-Llama-135M 和 AMD-Llama-135M-code。前者使用常规数据进行了预训练,而后者则使用了额外的 200 亿个专门用于代码数据的标记进行了微调。

预训练:AMD-Llama-135M 在四个 MI250 节点上训练了六天。代码专用变体 AMD-Llama-135M-code 则需要额外四天时间进行微调。

所有相关的训练代码、数据集和模型权重都是开源的,使开发者能够复现该模型并为其他 SLM 和 LLM 的训练做出贡献。

推测解码的优化

AMD-135M 的一个显著进步是采用了推测解码技术。传统的自回归方法在大型语言模型中常因每次前向传递仅生成一个标记而导致内存访问效率低下。推测解码通过使用一个小型草稿模型生成候选标记,然后由一个更大的目标模型验证这些标记,从而解决了这个问题。这种方法可以每次前向传递生成多个标记,显著提高了内存访问效率和推理速度。

推理性能加速

AMD 在各种硬件配置,包括 MI250 加速器和 Ryzen™ AI 处理器上测试了 AMD-Llama-135M-code 作为 CodeLlama-7b 的草稿模型的性能。结果表明,当采用推测解码时,推理性能显著加速。此增强功能为在选定 AMD 平台上进行训练和推理建立了一套端到端的工作流程。

下一步

通过提供开源参考实现,AMD 旨在促进 AI 社区内的创新。公司鼓励开发者探索并为这一 AI 技术的新前沿做出贡献。

有关 AMD-135M 的更多详细信息,请访问 AMD.com 上的完整技术博客。



Read More