🔔
🎄
🎁
🦌
🛷
NEW
Anyscale推出新型副本压缩功能以优化资源使用 - Blockchain.News

Anyscale推出新型副本压缩功能以优化资源使用

realtime news Jul 15, 2024 19:29

Anyscale推出副本压缩功能以解决资源碎片化问题,增强资源利用率并降低Ray Serve部署成本。

Anyscale推出新型副本压缩功能以优化资源使用

拥抱AI的公司正日益面临资源利用和成本管理的问题。尤其是模型服务和推理,需要能够随着流量的变化进行上下扩展。Ray Serve是一个基于Ray构建的可扩展模型服务库,旨在帮助处理这些动态。尽管像Ray Serve这样的开源系统有助于管理增加的流量,但即使是复杂的系统也难以在流量减少后进行缩减。这种类型的资源碎片化不可避免地导致资源未充分利用和成本增加。

Anyscale的新型副本压缩功能通过优化在线推理和模型服务的资源使用来解决资源碎片化问题。看看该功能如何工作,以及如何在实践中使用它。

背景:什么是Ray Serve?

Ray Serve有几个关键概念:

  • 部署:部署包含处理传入请求的业务逻辑或ML模型。

  • 副本:副本是可以处理请求的部署实例。这些实例通过Ray Actors实现。副本数量可以根据传入请求负载进行上下扩展(甚至自动扩展)。

  • 应用:应用是Ray Serve集群中的升级单位。一个应用由一个或多个部署组成。

  • 服务:服务是由一个或多个应用组成的Ray Serve集群。

部署独立处理传入请求,这在大多数情况下允许并行处理和高效的资源利用。例如,Ray Serve可以在同一个服务中为Llama-3-8B和Llama-3-70B创建不同资源需求的部署(每个副本分别需要1个GPU和4个GPU)。这两个部署会根据各自的流量独立扩展。

资源碎片化问题

资源碎片化发生在扩展活动导致节点之间的资源利用不均时。随着副本增加,自动扩展器会启动新节点以处理增加的部署负载。但是,当流量减少且模型缩减时,用于处理增加负载的同一节点会变得未充分利用。这是导致成本增加和集群性能降低的最常见原因之一。

本质上,当扩展特定部署或模型(例如模型A)时,Ray Serve只考虑那个特定部署的流量和资源需求。在扩展过程中,任何其他部署(例如模型B和C)的状态、副本和流量都不会被考虑到。由于扩展只考虑单个部署,随着流量变化和集群上下扩展,资源碎片化不可避免。

image1.png

Anyscale的副本压缩解决资源碎片化问题

Anyscale推出副本压缩以解决资源碎片化问题。通过副本压缩,Anyscale会自动将副本迁移到更少的节点,以优化资源使用并降低成本。副本压缩功能有三个主要组成部分:

  • 副本迁移:压缩监控集群中的节点以发现迁移副本的机会。如果某个节点使用率较低,Anyscale的副本压缩会自动将副本迁移到具有足够容量的其他节点。集群中的每个节点都会被检查,优先释放副本较少的节点。

  • 零停机时间:迁移很轻松。Anyscale服务无缝地启动新副本,监控其健康状况,重新路由流量,并移除旧副本。

  • 自动扩展器集成:Anyscale自动扩展器会在迁移后持续寻找闲置节点并根据需要将其关闭,从而减少节点数量和成本。

让我们再次回顾上面提到的例子,现在有了Anyscale的副本压缩。通过副本压缩,Anyscale可以检测到模型A缩减,并自动将多余的模型C副本迁移到单个节点。

image2.png

Anyscale副本压缩的示例。Anyscale副本压缩检测到资源碎片化导致不必要的资源使用。副本会自动移动(无生产流量中断)到单个节点,从而降低成本并提高利用率。

副本压缩的实际效果:

为了测试新副本压缩功能,Anyscale进行了几个月的实际生产工作负载测试。来看一下测试内容以及副本压缩如何降低成本和提高效率。

案例研究:

Anyscale提供了一个无服务器API,用于提示包括Mistral、Mixtral、Llama3等在内的LLMs。这些模型作为副本部署在Anyscale服务中。此服务已运行了几个月,为用户提供10多个模型,处理流量模式广泛变化的情况。

在发布Anyscale副本压缩后,基于每个GPU秒的token量的数据,发现了显著的节省和效率提升。在无其他变化(例如改变张量并行度或服务的模型和硬件)的情况下,副本压缩后的整体效率提升了平均约10%。总体上,在启用后的立即一天内,尽管流量(以token数量计)增加了11.2%,但实例秒数减少了3.7%。由于高端GPU(如A100和H100)用于模型服务,这转化为相当大的成本节省。

副本压缩的影响和节省因流量分布、部署数量和底层实例而异。在规模较小的情况下,成本可减少50%(或更多)。

副本压缩的未来发展

团队正继续改进副本压缩算法,包括在考虑节点成本和资源类型方面的工作,以更好地优化使用和整体成本。请关注未来几个月的新动态。

开始使用Anyscale

Anyscale的新副本压缩功能通过解决资源碎片化问题,显著改进了分布式集群中的资源管理。这确保了Ray Serve部署的基础设施高效且成本效益,并且即将推出的增强功能将承诺更智能的资源管理。Anyscale副本压缩默认配置在Anyscale平台上部署的Ray Serve应用中。

今天就开始使用吧!

Image source: Shutterstock