NVIDIA RAPIDS 最新版本 24.10 为数据科学工作流程带来了显著增强,通过引入 NetworkX 和 Polars 的 GPU 加速等功能。据 NVIDIA 称,此更新强调了数据科学家和开发人员的无缝用户体验。
零代码改变的 NetworkX 加速
RAPIDS cuGraph 现在提供了 GPU 加速的 NetworkX,从 NetworkX 3.4 开始在此版本中正式发布。这一升级使得图形工作流程可以实现端到端加速,大幅提升大规模数据集的性能。用户只需将环境变量 NX_CUGRAPH_AUTOCONFIG
设置为 True 即可激活此功能,从而在算法如中介中心性和 PageRank 中获得显著加速。
Polars GPU 引擎公开测试
Polars GPU 引擎由 cuDF 提供支持,并在公开测试中发布,允许用户在不更改代码的情况下体验高达 13 倍的工作流程加速。此增强集成在 Polars 水懒 API 中,使用户能够通过 engine
关键字触发 GPU 计算。
针对大数据集的 UMAP
RAPIDS v24.10 扩展了 cuML 的 UMAP 算法的能力,以处理大于 GPU 内存的数据集,从而防止内存不足错误。这是通过一种新颖的分批近似最近邻算法实现的,该算法在 GPU 上处理数据子集。
改进的 cuDF-Pandas 兼容性
cuDF 的 pandas 加速模式改进现在支持真正的 NumPy 数组,提高了兼容性并消除了以前的变通方法。此外,cuDF 现在通过使用 Arrow C 数据接口支持更广泛版本的 PyArrow。
CI 系统中 GPU 集成的准则
NVIDIA 为集成 GPU 到基于 GitHub 的持续集成系统引入了新的准则,利用 GitHub Actions 对托管 GPU 运行器的支持。这样可以更轻松地集成和测试 RAPIDS 库,无需本地 GPU 硬件。
平台更新
24.10 版本包括与 Python 3.12、NumPy 2.x 及其他科学计算软件的兼容性更新。然而,它放弃了对 Python 3.9 及较旧版本 NCCL 的支持。
RAPIDS 24.10 的这些更新继续推进数据科学家和开发人员的加速计算的可访问性,提供了增强的性能和兼容性。
Image source: Shutterstock