NVIDIA推出用于边缘部署的生成式AI驱动视觉AI代理

realtime news Jul 18, 2024 02:43 UTC 18:43

1 Min Read

据NVIDIA技术博客报道，视觉语言模型（VLMs）在AI技术上取得了令人兴奋的突破，提供了一种更动态和灵活的视频分析方法。VLMs使用户能够使用自然语言与图像和视频输入进行交互，使技术更加易于访问和适应。这些模型可以在NVIDIA Jetson Orin边缘AI平台或通过NIMs的独立GPU上运行。

什么是视觉AI代理？

视觉AI代理由VLM驱动，用户可以用自然语言询问一系列广泛的问题，并从录制或实时视频中获得反映真实意图和上下文的见解。通过易于使用的REST API进行交互，并与其他服务和移动应用程序集成。这一代新的视觉AI代理有助于总结场景，创建各种警报，并使用自然语言从视频中提取可操作的见解。

NVIDIA Metropolis带来了视觉AI代理工作流，这些参考解决方案加速了由VLMs驱动的AI应用程序的开发，从边缘或云端的视频中提取具有上下文理解的见解。

对于云端部署，开发人员可以使用NVIDIA NIM，这是一组包含行业标准API、领域特定代码、优化的推理引擎和企业运行时的推理微服务，为视觉AI代理提供动力。访问API目录，直接从浏览器探索和尝试基础模型，开始吧。

为边缘构建视觉AI代理

Jetson平台服务是一套预构建的微服务，提供构建NVIDIA Jetson Orin计算机视觉解决方案所需的基本开箱功能。这些微服务包括支持零样本检测和最先进VLMs等生成式AI模型的AI服务。VLMs结合了大型语言模型和视觉变压器，实现了对文本和视觉输入的复杂推理。

Jetson上首选的VLM是VILA，其通过优化每图像的标记速度，提供了最先进的推理能力。通过将VLMs与Jetson平台服务相结合，可以创建基于VLM的视觉AI代理应用程序，检测实时流媒体摄像头上的事件，并通过移动应用程序向用户发送通知。

与移动应用程序的集成

完整的端到端系统现在可以集成到移动应用程序中，以构建VLM驱动的视觉AI代理。为了给VLM提供视频输入，Jetson平台服务网络服务和VST自动发现和服务连接到网络的IP摄像机。通过VST REST API，这些摄像机被提供给VLM服务和移动应用程序使用。

用户可以从应用程序中使用自然语言设置自定义警报，例如“是否有火灾”并在其选定的直播流上设置警报规则。一旦设置好警报规则，VLM会评估直播，并通过连接到移动应用程序的WebSocket实时通知用户。这将触发移动设备上的弹出通知，允许用户在聊天模式中问后续问题。

结论

这一发展强调了VLMs与Jetson平台服务相结合，构建先进视觉AI代理的潜力。VLM AI服务的完整源代码可以在GitHub上获得，为开发人员提供了学习如何使用VLMs并构建自己微服务的参考。

欲了解更多信息，请访问NVIDIA技术博客。

News ▸

NVIDIA推出用于边缘部署的生成式AI驱动视觉AI代理

什么是视觉AI代理？

为边缘构建视觉AI代理

与移动应用程序的集成

结论

Read More

NVIDIA Unveils Generative AI-Powered Visual AI Agents for Edge Deployment

Optimizing Parquet String Data Compression with RAPIDS

HTX Collaborates with Fireblocks to Enhance Security with Off Exchange Integration

Bybit Integrates Fireblocks Off Exchange to Enhance Security for Institutional Traders

Emerging Trends in Human-AI Collaboration: A Glimpse into the Future