Together AI 发布了 Inference Engine 2.0,提供 Turbo 和 Lite 端点

realtime news  Jul 19, 2024 03:02  UTC 19:02

1 Min Read

Together AI 宣布发布其全新的 Inference Engine 2.0,其中包括备受期待的 Turbo 和 Lite 端点。这个新的推理栈旨在提供比现有解决方案显著更快的解码吞吐量和更优越的性能。

性能增强

together.ai 介绍,Together Inference Engine 2.0 提供的解码吞吐量是开源 vLLM 的四倍,并且在性能上比商业解决方案如 Amazon Bedrock、Azure AI、Fireworks 和 Octo AI 高 1.3 倍至 2.5 倍。通过在 Meta Llama 3 8B 上达到每秒超过 400 个标记,这得益于 FlashAttention-3 的进步、更快的 GEMM & MHA 内核、保留质量的量化和推测性解码。

新的 Turbo 和 Lite 端点

Together AI 引入了新的 Turbo 和 Lite 端点,从 Meta Llama 3 开始。这些端点旨在平衡性能、质量和成本,使企业可以避免妥协。Together Turbo 与全精度 FP16 模型的质量高度匹配,而 Together Lite 提供市面上最具成本效益和可扩展性的 Llama 3 模型。

Together Turbo 端点在保持质量的同时提供快速的 FP8 性能,与 FP16 参考模型匹配,并在 AlpacaEval 2.0 中超越其他 FP8 解决方案。这些 Turbo 端点的定价为每百万个标记 0.88 美元(70B)和 0.18 美元(8B),远比 GPT-4o 便宜。

Together Lite 端点使用 INT4 量化,以更低的成本提供高质量 AI 模型,Llama 3 8B Lite 每百万个标记的定价为 0.10 美元,比 GPT-4o-mini 低六倍。

采用和认可

包括 Zomato、DuckDuckGo 和《华盛顿邮报》在内的超过 100,000 名开发者和公司已经在他们的生成式 AI 应用中使用 Together Inference Engine。Zomato 外卖运营总监 Rinshul Chandra 赞扬了该引擎的高质量、速度和准确性。

技术创新

Together Inference Engine 2.0 融合了多项技术进步,包括 FlashAttention-3、定制的推测器和保留质量的量化技术。这些创新为引擎的优越性能和成本效益做出了贡献。

未来展望

Together AI 计划继续推动 AI 加速的前沿。公司旨在扩展对新模型、技术和内核的支持,确保 Together Inference Engine 始终处于 AI 技术的最前沿。

Llama 3 模型的 Turbo 和 Lite 端点从今天起可用,并计划很快扩展到其他模型。欲了解更多信息,请访问 Together AI 的 定价页面



Read More