AI21 Labs 推出混合架构 Jamba 1.5 大语言模型，增强推理能力

realtime news Aug 23, 2024 03:07 UTC 19:07

1 Min Read

根据NVIDIA 技术博客，AI21 Labs 推出了 Jamba 1.5 模型家族，这是一组先进的大语言模型（LLMs），旨在各种生成式 AI 任务中表现出色。

混合架构提供卓越性能

Jamba 1.5 系列采用结合 Mamba 和 Transformer 架构的混合方法，并辅以专家混合（MoE）模块。这种架构在长上下文处理方面表现出色，且计算开销最低，同时确保推理任务的高准确性。MoE 模块通过在生成 token 时仅使用可用参数的一部分来增加模型的容量，而不会增加计算需求。

每个 Jamba 模块配有八层和 1:7 的注意力到 Mamba 比例，适合单个 NVIDIA H100 80 GB GPU。该模型的架构平衡了内存使用和计算效率，使其适用于各种企业应用。

Jamba 1.5 模型还拥有广泛的 256K token 上下文窗口，能够处理大约 800 页文本。这一功能通过在长上下文中保留更多相关信息来提高响应的准确性。

Jamba 1.5 模型的一个突出特点是其强大的函数调用功能，支持 JSON 数据交换。这一功能使模型能够执行复杂操作和处理复杂查询，增强 AI 应用的交互性和相关性。

例如，企业可以部署这些模型来执行实时、高精度任务，如为金融服务生成贷款条款表或在零售环境中充当购物助理。

Jamba 1.5 模型针对检索增强生成（RAG）进行了优化，提高了其提供上下文相关响应的能力。256K token 上下文窗口允许在不需要连续分块的情况下处理大量信息，非常适合需要综合数据分析的场景。

RAG 在知识库广泛且分散的环境中特别有用，使模型能够高效地检索和提供更相关的信息。

Jamba 1.5 模型现已在 NVIDIA API 目录中提供，加入超过 100 种由 NVIDIA NIM 微服务支持的热门 AI 模型。这些微服务简化了各类企业应用中性能优化模型的部署。

NVIDIA 与领先的模型构建者合作，支持包括 Llama 3.1 405B、Mistral 8x22B、Phi-3 和 Nemotron 340B 奖励在内的各种模型。欲了解更多信息并探索这些模型，请访问ai.nvidia.com。