Together AI通过Kernel Collection提升NVIDIA H200和H100 GPU集群性能

realtime news  Sep 06, 2024 15:46  UTC 07:46

1 Min Read

根据together.ai,Together AI宣布通过集成NVIDIA H200 Tensor Core GPU对其GPU集群进行了显著的增强。此次升级将伴随着Together Kernel Collection (TKC),这是一套定制的内核栈,旨在优化AI操作,为训练和推理任务提供巨大的性能提升。

使用TKC提升性能

Together Kernel Collection (TKC)被设计用于显著加速常见的AI操作。与标准的PyTorch实现相比,TKC为常用的训练操作符提供了高达24%的加速,并为FP8推理操作提供了高达75%的加速。这一改进有望减少GPU使用时间,从而带来成本效率和更快的上市时间。

训练和推理优化

TKC优化的内核,如使用SwiGLU激活的多层感知器(MLP),对于训练像Llama-3这样的大型语言模型(LLMs)至关重要。据报道,这些内核比标准实现快22-24%,潜在的改进相比于现有最好的基线快10%。推理任务受益于一套强大的FP8内核堆栈,Together AI已经优化这些内核,使其比基础PyTorch实现快75%以上。

原生PyTorch兼容性

TKC与PyTorch完全集成,使AI开发者可以在现有的框架中无缝利用其优化。该集成简化了TKC的采用,只需在PyTorch中更改导入语句即可。

生产级测试

Together AI确保TKC经过严格的测试,以符合生产级标准,保证在实际应用中的高性能和可靠性。所有的Together GPU Clusters,无论是H200还是H100,都会自带TKC。

NVIDIA H200:更快的性能和更大的内存

基于Hopper架构的NVIDIA H200 Tensor Core GPU,专为高性能AI和HPC工作负载设计。据NVIDIA称,与其前身H100相比,H200在Llama 2 13B上的推理性能快40%,在Llama 2 70B上的推理性能快90%。H200拥有141GB的HBM3e内存和4.8TB/s的内存带宽,几乎是H100容量的两倍和带宽的1.4倍。

高性能互联

Together GPU Clusters利用SXM形态因子进行高带宽和快速数据传输,支持NVIDIA的NVLink和NVSwitch技术,实现GPU之间的超高速通信。结合NVIDIA Quantum-2 3200Gb/s InfiniBand网络,这种设置对于大规模AI训练和HPC工作负载是理想的选择。

成本效益基础设施

Together AI提供了显著的成本节约,其基础设施设计比云提供商如AWS便宜75%。公司还提供灵活的承诺选项,从一个月到五年不等,确保在AI开发生命周期的每个阶段有合适的资源。

可靠性和支持

Together AI的GPU集群提供99.9%的正常运行时间SLA,并经过严格的验收测试支持。公司的白手套服务提供从集群设置到持续维护的端到端支持,确保AI模型的卓越性能。

灵活的部署选项

Together AI提供多种部署选项,包括用于高性能工作负载管理的Slurm、用于容器化AI工作负载的Kubernetes,以及直接访问和最终灵活性的Ubuntu裸金属集群。这些选项满足了不同AI项目的需求,从大规模训练到生产级推理。

Together AI继续通过其高性能NVIDIA H200 GPU集群和Together Kernel Collection支持整个AI生命周期。该平台旨在优化性能,降低成本,并确保可靠性,是加速AI开发的理想选择。



Read More