NVIDIA 推出了一项开创性的AI蓝图,旨在彻底改变视频搜索和摘要,允许各行业的开发人员构建能够分析视频和图像内容的视觉AI代理。 NVIDIA 宣布,这一进展将提高依赖视觉数据的行业的生产力和安全性。
扩展行业内的AI能力
随着企业和公共部门组织越来越依赖来自相机和物联网传感器等设备的视觉信息,NVIDIA 的 AI 蓝图提供了一个结合计算机视觉和生成 AI 技术的可定制工作流程。该蓝图是 NVIDIA Metropolis 的一部分,该套件为开发视觉AI应用程序提供工具。
全球系统集成商如埃森哲、戴尔技术公司和联想正在将 NVIDIA 的 AI 蓝图整合到其产品中,以促进 AI 应用程序在工厂、仓库、机场和交通路口等环境的部署。
利用视觉语言模型
该蓝图利用了视觉语言模型(VLMs),结合计算机视觉和语言理解以解释物理世界。 NVIDIA 的AI蓝图可以配置NVIDIA NIM微服务,并兼容如Meta的Llama 3.1 405B模型,提升了问答和检索增强生成的能力。
这一创新解决方案使开发人员可以绕过数月的模型优化,能够在包括边缘、内部和云环境在内的各种平台上快速部署于NVIDIA GPU上。
应用程序和好处
在实际应用中,AI代理可以在仓库中提醒工人注意安全违规或识别繁忙路口的交通碰撞,辅助应急响应。此外,这些代理可以评估基础设施状况,提供主动维护解决方案。
除了工业用途,视觉AI代理还可以为视力受损者总结视频内容,生成体育赛事回顾,并协助标记大量视觉数据集以供AI训练使用。
全球整合和未来前景
埃森哲已将 NVIDIA AI 蓝图整合到其AI精炼厂,允许开发定制的AI模型。在东南亚,ITMAX和FPT利用该蓝图开发智能城市和交通应用,而戴尔和联想则将其集成到AI解决方案中。
此外,NVIDIA Metropolis生态系统中的公司如K2K正在利用该蓝图分析实时交通信息,帮助市政官员改善运营。这项技术目前正在意大利巴勒莫部署,以改善交通管理。
有关此开发的更多细节,NVIDIA AI 蓝图在巴塞罗那的智慧城市博览会展会上展出。相关方可以探索如何在NVIDIA网站上构建视觉AI代理并启动项目。
访问 NVIDIA 博客,了解有关NVIDIA视频搜索和摘要的AI蓝图的更多信息。
Image source: Shutterstock