AMD 发布 ROCm 6.2：通过新增强提升 AI 和 HPC 性能

NEW

AMD 发布 ROCm 6.2：通过新增强提升 AI 和 HPC 性能 - Blockchain.News

AMD 宣布发布 ROCm 6.2，这是一次旨在增强 AI 和高性能计算 (HPC) 应用性能、效率和可扩展性的重大更新。根据 AMD.com的消息，此次发布包括几项关键改进，巩固了 ROCm 作为 AI 和 HPC 开发领先平台的地位。

扩展 vLLM 支持

ROCm 6.2 扩展了 vLLM 支持，以提高 AMD Instinct™ 加速器上 AI 模型的效率和可扩展性。vLLM 专为大型语言模型（LLM）设计，解决了诸如高效多 GPU 计算、减少内存使用和最小化计算瓶颈等关键推理难题。此次更新启用了多 GPU 执行和 FP8 KV 缓存等各种上游 vLLM 功能，使开发者更容易解决复杂的 AI 任务。

Bitsandbytes 量化

在 ROCm 6.2 中包含的 Bitsandbytes 量化库显著提高了 AMD Instinct™ GPU 加速器的内存效率和性能。利用 8 位优化器，它减少了 AI 训练期间的内存使用，允许开发者在有限的硬件上处理更大的模型。LLM.Int8() 量化优化了 AI 部署，使高级 AI 功能更加可访问且成本更低。

新的离线安装程序创建器

新的 ROCm 离线安装程序创建器简化了无网络访问系统的安装过程。它创建了一个包含所有必要依赖项的单一安装文件，使部署变得简单明了。此工具将各种功能集成到一个统一的界面中，自动化安装后任务，确保正确一致的安装，提高了整体系统稳定性。

Omnitrace 和 Omniperf 分析工具

ROCm 6.2 中引入了 Omnitrace 和 Omniperf 分析工具（测试版），旨在革新 AI 和 HPC 开发。Omnitrace 提供了 CPU、GPU、NIC 和网络结构的系统性能全景视图，而 Omniperf 提供了详细的 GPU 内核分析以进行微调。这些工具帮助开发者识别并解决性能瓶颈，确保高效资源利用和更快的 AI 训练和 HPC 模拟。

更广泛的 FP8 支持

ROCm 6.2 在其生态系统中扩展了 FP8 支持，通过解决高精度格式相关的内存瓶颈和高延迟来增强 AI 推理。更新包括 PyTorch 和 JAX 中的 FP8 GEMM 支持，RCCL 中的 FP8 特定合集操作，以及 MIOPEN 中的基于 FP8 的 Fused Flash attention。这些增强措施使训练和推理过程更加高效，最大化吞吐量并减少延迟。

通过发布 ROCm 6.2，AMD 继续展示其为 AI 和 HPC 社区提供强大、竞争和创新解决方案的承诺。开发者现在拥有了推动可能性边界的工具和支持，加强了 ROCm 作为下一代计算任务首选开放平台的信心。

通过查看发布说明，探索 ROCm 6.2 引入的各项新功能。

Image source: Shutterstock

Flash News

Bitcoin Dominance Strategy: Why Top Traders Prioritize BTC Over Altcoins in 2025

4/28/2025 2:44:20 AM

TRUMP Whale Accumulates 92,460 Tokens from Binance, Ranks in Top 86 Wallets: On-Chain Analysis for Traders

4/28/2025 2:32:34 AM

Lorenzo Protocol Moves 560 BTC to Binance and OKX: Potential $11.86 Million Profit Signals Trading Opportunities

4/28/2025 2:15:04 AM

Whale Deposits $1.33M USDC on HyperLiquid to Short $TRUMP at $14.787 Entry – Key Liquidation Level Revealed

4/28/2025 2:12:44 AM

Whale Deposits $1.33M USDC on HyperLiquid to Short $TRUMP: Entry and Liquidation Price Analysis

4/28/2025 2:12:44 AM

Email us at info@blockchain.news