Meta与Together AI合作推出Llama 3.1模型,这是开源AI领域的一个重要里程碑。此次发布包括Llama 3.1 405B、70B、8B和LlamaGuard模型,所有这些模型现在都可以通过Together AI的平台进行推理和微调。据Together AI称,这一合作旨在提供加速性能的同时保持完全准确性。
无与伦比的性能和可扩展性
Together推理平台承诺具有业界领先的性能指标的水平可扩展性。Llama 3.1 405B模型可以处理高达每秒80个标记,而8B模型可以处理高达每秒400个标记。这意味着相较于vLLM,速度提升1.9倍至4.5倍,同时保持完全准确性。
这些进步基于Together AI的专有推理优化研究,融合了FlashAttention-3内核和基于RedPajama的定制预测器等技术。该平台支持无服务器和专用端点,为开发者和企业在生产规模上构建生成性AI应用程序提供了灵活性。
广泛采用和应用案例
包括Zomato、DuckDuckGo和《华盛顿邮报》在内的10万多名开发者和公司已经在利用Together平台满足他们的生成性AI需求。Llama 3.1模型提供了无与伦比的灵活性和控制力,使其适用于从一般知识任务到多语言翻译和工具使用的各种应用。
特别是,Llama 3.1 405B模型作为目前最大的公开可用基础模型,与最好的闭源替代品相媲美。它包含了诸如合成数据生成和模型蒸馏等高级功能,预计将加速开源AI的采用。
高级功能和工具
Together推理引擎还包括LlamaGuard,一个可以用作独立分类器或过滤器以保障响应内容的审核模型。此功能允许开发者筛选潜在的不安全内容,增强AI应用程序的安全性和可靠性。
Llama 3.1模型还将上下文长度扩展到128K,并增加了对八种语言的支持。这些增强功能加上新的安全和保护工具,使这些模型高度多功能,适用于各种应用。
通过API和专用端点可用
所有Llama 3.1模型都可以通过Together API获取,并且405B模型可进行QLoRA微调,允许企业根据其具体需求定制模型。Together Turbo端点提供最佳的吞吐量和准确性,使其成为在大规模构建Llama 3.1的最具成本效益的解决方案。
未来展望
Meta与Together AI的合作旨在民主化访问高性能AI模型,促进AI社区的创新和合作。Llama 3.1模型的开源性质符合Together AI的开放研究和研究人员、开发者以及企业之间信任的愿景。
作为Llama 3.1模型的发布合作伙伴,Together AI致力于为生成性AI工作负载提供最佳性能、准确性和成本效益,确保开发者和企业可以保证其数据和模型的安全。
Image source: Shutterstock