微软必应视觉搜索通过NVIDIA加速库增强

realtime news Oct 08, 2024 14:50 UTC 06:50

1 Min Read

微软必应视觉搜索是一款使全球用户能够通过照片进行搜索的工具，通过与NVIDIA的合作进行了重大优化，带来了显著的性能提升。根据NVIDIA技术博客的说法，将NVIDIA的TensorRT、CV-CUDA和nvImageCodec集成到必应的TuringMM视觉嵌入模型中，使离线索引管道的吞吐量提高了5.13倍，减少了能源消耗和成本。

多模态AI和视觉搜索

像微软的TuringMM这样的多模态AI技术对于需要在不同数据类型（如文本和图像）之间无缝交互的应用至关重要。用于图像和文本联合理解的流行模型是CLIP，它使用双编码器架构来处理数亿对图像和标题。这些先进模型对于文本基础的视觉搜索、零样本图像分类和图像字幕等任务至关重要。

优化工作

必应视觉嵌入管道的优化是通过利用NVIDIA的GPU加速技术实现的。这个工作重点是通过使用NVIDIA的TensorRT进行模型执行来提升TuringMM管道的性能，从而提高了变压器架构中计算密集层的效率。此外，使用nvImageCodec和CV-CUDA加速了图像解码和预处理阶段，大大降低了图像处理任务的延迟。

实施与结果

在优化之前，必应的视觉嵌入模型运行在一个GPU服务器集群上，负责处理Microsoft各种深度学习服务的推理任务。原始实现使用ONNXRuntime配合CUDA Execution Provider，由于OpenCV处理的图像解码过程面临瓶颈。通过整合NVIDIA的库，管道的吞吐量从每秒88个查询（QPS）增加到452 QPS，展示了5.14倍的加速。

这些改进不仅提高了处理速度，还通过将任务转移到GPU上减轻了CPU的计算负荷，从而最大限度地提高了电能效率。NVIDIA的TensorRT对性能的提升贡献最大，而nvImageCodec和CV-CUDA库额外提升了27%的性能改进。

结论

微软必应视觉搜索的成功优化突显了NVIDIA加速库在增强AI驱动应用中的潜力。合作展示了如何有效利用GPU资源来加速深度学习和图像处理工作负载，即使基线系统已经采用了GPU加速。这些进展为更高效、更响应的视觉搜索能力奠定了基础，同时也使用户和服务提供商受益。

如需了解更多有关优化过程的详细见解，请访问原始NVIDIA技术博客。

News ▸

微软必应视觉搜索通过NVIDIA加速库增强

多模态AI和视觉搜索

优化工作

实施与结果

结论

Read More

Microsoft Bing Visual Search Enhanced by NVIDIA's Accelerated Libraries

CleanSpark Appoints Brian Carson as Chief Accounting Officer

Robinhood Schedules Inaugural Investor Day for December 2024

Harnessing AMD Radeon GPUs for Efficient Llama 3 Fine-Tuning

Arkham Integrates Oldest Bitcoin Transactions with P2PK Support