NVIDIA和Meta合作推出Llama 3.1和NeMo Retriever NIMs的先进RAG管道

realtime news  Jul 24, 2024 06:08  UTC 22:08

1 Min Read

在大语言模型(LLM)的重大进展中,NVIDIA和Meta联合推出了一个新框架,结合了Llama 3.1和NVIDIA NeMo Retriever NIMs,旨在增强检索增强生成(RAG)管道。据NVIDIA技术博客称,该合作旨在优化LLM响应,确保其最新和准确。

增强RAG管道

检索增强生成(RAG)是一种防止LLM生成过时或错误响应的重要策略。各种检索策略,如语义搜索或图检索,改进了用于准确生成所需文档的召回。然而,没有一刀切的方法,检索管道需要根据特定的数据需求和超参数进行定制。

现代RAG系统越来越多地采用代理框架来处理推理、决策和对检索数据的反思。代理系统使LLM能够通过问题进行推理,创建计划,并使用一组工具来执行这些计划。

Meta的Llama 3.1和NVIDIA NeMo Retriever NIMs

Meta的Llama 3.1家族,覆盖从80亿到4050亿参数的模型,配备了处理代理工作负载的能力。这些模型可以分解任务,充当中央计划者,并进行多步骤推理,同时保持模型和系统级别的安全检查。

NVIDIA通过其NeMo Retriever NIM微服务优化了这些模型的部署,提供企业级可扩展软件,以定制其数据依赖的RAG管道。NeMo Retriever NIMs可以集成到现有的RAG管道中,并与开源LLM框架如LangChain或LlamaIndex配合使用。

LLM和NIM:强强联手

在可定制的代理RAG中,具有函数调用能力的LLM在决策检索数据、生成结构输出和调用工具方面发挥了重要作用。NeMo Retriever NIMs通过提供最先进的文本嵌入和重新排序能力增强了这一过程。

NVIDIA NeMo Retriever NIMs

与NVIDIA Triton推理服务器和NVIDIA TensorRT一起打包的NeMo Retriever微服务提供了多个优势:

  • 可扩展部署:无缝扩展以满足用户需求。
  • 灵活集成:轻松集成到现有工作流程和应用程序中。
  • 安全处理:确保数据隐私和严格的数据保护。

Meta Llama 3.1工具调用

Llama 3.1模型旨在提供强大的代理功能,允许LLM计划和选择合适的工具来解决复杂问题。这些模型支持OpenAI风格的工具调用,便于生成结构化输出,而无需正则表达式解析。

代理RAG

代理框架通过增加决策和自我反思层来增强RAG管道。这些框架,如自我RAG和纠正RAG,通过确保生成后的验证和与事实信息的对齐,提高了检索数据及生成响应的质量。

架构和节点规格

多代理框架如LangGraph允许开发人员将LLM应用级逻辑分组到节点和边中,提供对代理决策更细致的控制。值得注意的节点包括:

  • 查询分解器:将复杂问题分解为较小的逻辑部分。
  • 路由器:决定文档检索的来源或处理响应。
  • 检索器:实施核心RAG管道,通常结合语义和关键词搜索方法。
  • 评分器:检查检索段落的相关性。
  • 幻觉检查器:核实生成内容的事实准确性。

根据具体的使用案例,可以集成额外的工具,例如用于回答趋势或增长相关问题的财务计算器。

入门

开发人员可以在NVIDIA的AI平台上访问NeMo Retriever嵌入和重新排序NIM微服务,以及Llama 3.1 NIMs。NVIDIA开发者Jupyter笔记本中提供了详细的实施指南。



Read More