NVIDIA推出用于边缘部署的生成式AI驱动视觉AI代理

realtime news  Jul 18, 2024 02:43  UTC 18:43

1 Min Read

据NVIDIA技术博客报道,视觉语言模型(VLMs)在AI技术上取得了令人兴奋的突破,提供了一种更动态和灵活的视频分析方法。VLMs使用户能够使用自然语言与图像和视频输入进行交互,使技术更加易于访问和适应。这些模型可以在NVIDIA Jetson Orin边缘AI平台或通过NIMs的独立GPU上运行。

什么是视觉AI代理?

视觉AI代理由VLM驱动,用户可以用自然语言询问一系列广泛的问题,并从录制或实时视频中获得反映真实意图和上下文的见解。通过易于使用的REST API进行交互,并与其他服务和移动应用程序集成。这一代新的视觉AI代理有助于总结场景,创建各种警报,并使用自然语言从视频中提取可操作的见解。

NVIDIA Metropolis带来了视觉AI代理工作流,这些参考解决方案加速了由VLMs驱动的AI应用程序的开发,从边缘或云端的视频中提取具有上下文理解的见解。

对于云端部署,开发人员可以使用NVIDIA NIM,这是一组包含行业标准API、领域特定代码、优化的推理引擎和企业运行时的推理微服务,为视觉AI代理提供动力。访问API目录,直接从浏览器探索和尝试基础模型,开始吧。

为边缘构建视觉AI代理

Jetson平台服务是一套预构建的微服务,提供构建NVIDIA Jetson Orin计算机视觉解决方案所需的基本开箱功能。这些微服务包括支持零样本检测和最先进VLMs等生成式AI模型的AI服务。VLMs结合了大型语言模型和视觉变压器,实现了对文本和视觉输入的复杂推理。

Jetson上首选的VLM是VILA,其通过优化每图像的标记速度,提供了最先进的推理能力。通过将VLMs与Jetson平台服务相结合,可以创建基于VLM的视觉AI代理应用程序,检测实时流媒体摄像头上的事件,并通过移动应用程序向用户发送通知。

与移动应用程序的集成

完整的端到端系统现在可以集成到移动应用程序中,以构建VLM驱动的视觉AI代理。为了给VLM提供视频输入,Jetson平台服务网络服务和VST自动发现和服务连接到网络的IP摄像机。通过VST REST API,这些摄像机被提供给VLM服务和移动应用程序使用。

用户可以从应用程序中使用自然语言设置自定义警报,例如“是否有火灾”并在其选定的直播流上设置警报规则。一旦设置好警报规则,VLM会评估直播,并通过连接到移动应用程序的WebSocket实时通知用户。这将触发移动设备上的弹出通知,允许用户在聊天模式中问后续问题。

结论

这一发展强调了VLMs与Jetson平台服务相结合,构建先进视觉AI代理的潜力。VLM AI服务的完整源代码可以在GitHub上获得,为开发人员提供了学习如何使用VLMs并构建自己微服务的参考。

欲了解更多信息,请访问NVIDIA技术博客



Read More