位于硅谷的初创公司Contextual AI推出了一款名为RAG 2.0的革命性平台,承诺将为企业革新检索增强生成(RAG)。根据NVIDIA博客,RAG 2.0在参数准确性和性能方面比竞争对手提升了约10倍。
背景和发展
Contextual AI的首席执行官Douwe Kiela在大语言模型(LLM)领域一直是一个有影响力的人物。受到Google和OpenAI开创性论文的启发,Kiela和他的团队早在2020年就认识到LLM在处理实时数据方面的局限性。这一认识促使他们开发了第一个RAG架构。
RAG旨在不断更新基础模型以获取新的、相关的信息。这种方法解决了LLM中固有的数据新鲜度问题,使其在企业应用中更加有用。Kiela的团队认识到,如果没有高效、经济的实时数据访问,即使是最复杂的LLM也无法为企业提供价值。
RAG 2.0:下一次进化
Contextual AI的新产品RAG 2.0在原有架构的基础上提升了性能和准确性。该平台将实时数据检索与LLM集成,使70亿参数模型在仅设计为7亿参数的基础设施上运行,而不会影响准确性。这种优化为需要较小、更高效计算资源的边缘应用场景带来了新的可能。
“当ChatGPT发布时,它暴露了现有LLM的局限性,”Kiela解释道。“我们知道RAG是解决这些问题的方案,而且我们有信心改进最初的设计。”
集成检索器和语言模型
RAG 2.0的一个关键创新是其检索架构与LLM的紧密集成。检索器处理用户查询,识别相关的数据源,并将这些信息反馈给LLM,后者随后生成响应。这种集成的方法确保了更高的准确性和响应质量,减少了“幻觉”数据的可能性。
Contextual AI通过精炼其检索器的反向传播,在检索器和生成器组件之间对齐,使得整体同步调整,从而显著提高了性能和准确性。
解决复杂用例
RAG 2.0被设计为LLM不可知论者,可以与各种开源模型兼容,如Mistral和Llama。该平台利用NVIDIA的Megatron LM和Tensor Core GPU来优化其检索器。Contextual AI采用“检索器混合”方法处理各种格式的数据,如文本、视频和PDF。
这种混合方法涉及部署不同类型的RAG和一个神经重排算法,优先考虑最相关的信息。此方法确保了LLM获取最佳数据以生成准确的响应。
“我们的混合检索策略通过利用不同RAG类型的优势最大化性能,”Kiela说。“这种灵活性允许我们为特定的用例和数据格式定制解决方案。”
RAG 2.0的优化架构降低了延迟并减少了计算需求,适用于从金融科技、制造业到医疗设备和机器人等广泛的行业。该平台可以在云端、本地或完全离线的环境中部署,为企业提供多样化的解决方案。
“我们专注于解决最具挑战性的用例,”Kiela补充说。“我们的目标是增强高价值、知识密集型角色,帮助公司节省成本并提高生产力。”
Image source: Shutterstock