Search results for
hgx h200
NVIDIA 的 TensorRT-LLM 多模块注意力在 HGX H200 上提升 AI 推理性能
NVIDIA 的 TensorRT-LLM 引入多模块注意力,显著提升了 HGX H200 上的 AI 推理吞吐量,提升幅度高达 3.5 倍,解决了长序列长度的挑战。