作为领先的 AI 驱动搜索引擎,Perplexity AI 在 NVIDIA 的先进推理堆栈的支持下,成功管理每月超过 4.35 亿次搜索查询。据 NVIDIA 官方博客,该平台已集成 NVIDIA H100 Tensor Core GPU、Triton Inference Server 和 TensorRT-LLM 高效部署大语言模型(LLM)。
支持多种 AI 模型
为了满足用户的多样化需求,Perplexity AI 同时运营超过 20 种 AI 模型,包括开源 Llama 3.1 模型的变体。根据用户意图,小型分类模型会将每个用户请求匹配到最合适的模型。这些模型分布于 GPU pods 中,每个都由 NVIDIA Triton Inference Server 管理,以确保在严格的服务级别协议(SLA)下的效率。
pods 托管于一个 Kubernetes 集群中,具有一个内部前端调度器,根据负载和使用量引导流量。这样可确保一致的 SLA 遵守,优化性能和资源利用。
优化性能和成本
Perplexity AI 采用全面的 A/B 测试策略来定义不同用例的 SLA。此过程旨在在保持目标 SLA 的同时最大化 GPU 利用率,优化推理服务成本。小型模型专注于减少延迟,而像 Llama 8B、70B 和 405B 这样的用户导向型大型模型则进行详细的性能分析,以平衡成本和用户体验。
通过在多个 GPU 上并行化模型部署,进一步提高了性能,增加张量并行性,以降低对延迟敏感请求的服务成本。通过将模型托管在基于云的 NVIDIA GPU 上,Perplexity 通过这种战略方法每年节省了大约 100 万美元,超越第三方 LLM API 服务成本。
创新技术提升吞吐量
Perplexity AI 正在与 NVIDIA 合作实施“解耦服务”方法,将推理阶段分配到不同的 GPU 上,大幅提高吞吐量并遵循 SLA。这种灵活性使 Perplexity 能够利用各种 NVIDIA GPU 产品来优化性能和成本效益。
随着即将推出的 NVIDIA Blackwell 平台,进一步的改进将带来显著的性能提升,包括第二代 Transformer Engine 和先进的 NVLink 功能。
Perplexity 利用 NVIDIA 推理堆栈的战略表明,AI 驱动的平台有潜力高效管理海量查询量,提供高质量的用户体验,同时保持成本效益。
Image source: Shutterstock