AMD 推出了 ROCm 6.1,这是其开源软件平台的最新版本,旨在最大化 AMD Instinct™ 加速器的性能。据 AMD.com 报道,此次更新带来了众多新功能和增强功能,旨在为 AI 和高性能计算(HPC)开发者服务。
增强的 GPU 支持和生态系统扩展
ROCm 6.1 大幅扩展了对 AMD Instinct™ 和 Radeon™ GPU 的支持。此次更新包括在各种计算领域的优化,并扩展了生态系统支持,以跟上 AI 框架的快速进展。这些增强旨在提高应用程序的稳定性和性能,使开发人员能够突破 AI 和 HPC 的界限。
新的视频解码能力
新的 ROCm 库引入了直接在 GPU 上进行高性能视频解码的功能,利用内置于 AMD GPU 的 Video Core Next (VCN) 引擎。该功能称为 rocDecode,可以将压缩视频直接解码到视频内存中,最小化通过 PCIe 总线的数据传输,并消除视频处理中的常见瓶颈。这项能力对于视频缩放、颜色转换和增强等实时应用至关重要,这些应用对于高级分析、推理和机器学习训练至关重要。
使用 MIGraphX 进行高级模型推理
在 ROCm 6.1 中,MIGraphX,即 AMD 的图推理引擎,获得了重大更新。该引擎现在支持 Flash 注意力机制,增强了像 BERT、GPT 和 Stable Diffusion 等基于变换器模型的内存效率。此外,新的 Torch-MIGraphX 库将 MIGraphX 的功能直接集成到 PyTorch 工作流中,支持包括 FP32、FP16 和 INT8 在内的多种数据类型。
使用 MIOpen 改进深度学习
AMD 的开源深度学习原语库 MIOpen 也进行了显著改进。ROCm 6.1 引入了 Find 2.0 融合计划以优化推理任务,并更新了 NHWC 格式的卷积内核,从而提升各种应用中的性能。这些更新旨在优化内存带宽和 GPU 启动开销,对于高效的深度学习操作至关重要。
可组合内核和 hipSPARSELt 增强功能
ROCm 6.1 中的可组合内核 (CK) 库现在支持随机舍入,取代了传统的 FP8 舍入逻辑。这种方法提高了模型收敛性,提供了处理机器学习模型内数据的更准确的方法。此外,hipSPARSELt 引入了对结构化稀疏矩阵的支持,提升了稀疏矩阵-矩阵乘法 (SPMM) 操作的灵活性和性能。
使用 hipTensor 进行高级张量操作
AMD 的专用 C++ 库 hipTensor 用于加速张量操作,现引入了 4D 张量置换和收缩的支持。此更新拓宽了 hipTensor 可优化操作的范围,对于神经网络训练和高级模拟等复杂计算任务至关重要。
总的来说,ROCm 6.1 更新旨在为开发人员提供强大的工具,以释放他们的创新潜力。每一项增强功能都旨在提高性能、简化工作流程,帮助开发人员更高效地实现他们的目标。
Image source: Shutterstock