NVIDIA 的 cuDSS 通过新求解器技术增强工程和科学计算
realtime news Feb 26, 2025 03:54
NVIDIA 的 cuDSS v0.4.0 和 v0.5.0 提供了工程和科学计算的显著改进,推出了混合内存模式和主机多线程功能等。

NVIDIA 宣布了其稀疏直接求解器库 cuDSS 的最新进展,旨在增强工程和科学计算。新版本 cuDSS v0.4.0 和 v0.5.0 带来了显著的性能提升和可用性功能,使其成为数据中心和其他计算环境的基本工具。
cuDSS v0.4.0 和 v0.5.0 的关键特性
cuDSS v0.4.0 在因子化和求解步骤上引入了性能提升,并添加了新的功能,如内存预测 API、自动混合内存选择和可变批处理支持。版本 0.5.0 通过添加主机执行模式进一步增强了这些功能,这对于较小的矩阵特别有益,并通过混合内存模式和主机多线程优化性能。
性能和可用性增强
内存预测 API 对于需要在进入内存密集阶段之前预测设备和主机内存需求的用户至关重要。这在设备内存可能不足的场景中有所帮助,使用户能够启用混合内存模式以提高效率。
此外,cuDSS v0.4.0 支持非均匀批处理,通过适应多样的矩阵尺寸和稀疏模式增强了性能。在 v0.5.0 中,引入了主机多线程,使得重排序等任务可以在多个 CPU 线程上更高效地执行。
显著的性能提升
cuDSS v0.4.0 和 v0.5.0 的更新在各种工作负载上提供了显著的性能提升。版本 0.4.0 通过在三角因子变为密集时使用密集 BLAS 内核来加速因子化和求解步骤,从而实现受矩阵结构和重排序置换影响的加速。
此外,v0.5.0 优化了混合内存模式,允许内部数组驻留在主机上,这在基于 NVIDIA Grace 的系统上特别有效,因为 CPU 和 GPU 之间的内存带宽更高。
混合执行模式
在 v0.5.0 中引入的混合执行模式允许部分计算在主机上执行,减少了对小矩阵缺乏足够并行性以填满 GPU 的开销。此模式通过最小化主机和设备之间不必要的内存传输来提高性能。
有关新功能和性能增强的更多详细信息,请访问官方 NVIDIA 博客。
Image source: Shutterstock