AMD Radeon PRO GPU和ROCm软件扩展LLM推断能力
据AMD.com报道,AMD宣布其Radeon PRO GPU和ROCm软件的进展,使小型企业能够利用大语言模型(LLM),例如Meta的Llama 2和3,包括新发布的Llama 3.1。
小型企业的新能力
配备专用AI加速器和大量板载内存,AMD的Radeon PRO W7900双槽GPU在性能价格比方面领先市场,使小型企业能够在本地运行定制AI工具。这包括如聊天机器人、技术文档检索和个性化销售建议等应用。专门的Code Llama模型进一步使程序员能够生成和优化新数字产品的代码。
AMD最新发布的开源软件堆栈ROCm 6.1.3支持在多个Radeon PRO GPU上运行AI工具。这一增强使中小企业(SME)能够处理更大和更复杂的LLM,同时支持更多用户。
扩展LLM的用例
虽然AI技术已经在数据分析、计算机视觉和生成设计中普遍使用,但AI的潜在用例远不止于此。像Meta的Code Llama这样的专用LLM使应用开发人员和网页设计师能够从简单的文本提示生成工作代码或调试现有代码库。母模型Llama在客户服务、信息检索和产品个性化等方面有广泛应用。
小型企业可以利用检索增强生成(RAG)使AI模型了解其内部数据,例如产品文档或客户记录。这种定制化减少了手动编辑的需要,产生更准确的AI生成输出。
本地托管的优势
尽管云端AI服务可用,LLM的本地托管提供了显著优势:
- 数据安全:在本地运行AI模型消除了将敏感数据上传到云端的需要,解决了关于数据共享的主要担忧。
- 较低延迟:本地托管减少了延迟,为聊天机器人和实时支持等应用提供即时反馈。
- 任务控制:本地部署允许技术人员在不依赖远程服务提供商的情况下排除故障并更新AI工具。
- 沙盒环境:本地工作站可以作为沙盒环境,用于在全面部署前原型设计和测试新AI工具。
AMD的AI性能
对于中小企业,托管定制AI工具不必复杂或昂贵。像LM Studio这样的应用程序方便了LLM在标准Windows笔记本和台式系统上的运行。LM Studio通过HIP运行时API优化在AMD GPU上运行,利用当前AMD显卡中的专用AI加速器来提高性能。
像32GB Radeon PRO W7800和48GB Radeon PRO W7900这样的专业GPU提供了足够的内存来运行更大的模型,比如具有300亿参数的Llama-2-30B-Q8。ROCm 6.1.3引入了对多个Radeon PRO GPU的支持,使企业能够部署多GPU系统来同时处理多个用户的请求。
与Llama 2的性能测试表明,Radeon PRO W7900的性能价格比比NVIDIA的RTX 6000 Ada代高出多达38%,使其成为中小企业的成本效益解决方案。
随着AMD硬件和软件能力的不断发展,即使是小型企业也可以部署并定制LLM,以增强各种业务和编程任务,避免将敏感数据上传到云端的需求。
Read More
Exploring the Future of Real World Assets in DeFi
Aug 31, 2024 1 Min Read
AMD Radeon PRO GPUs and ROCm Software Expand LLM Inference Capabilities
Aug 31, 2024 1 Min Read
NVIDIA Introduces Fast Inversion Technique for Real-Time Image Editing
Aug 31, 2024 1 Min Read
NVIDIA RAPIDS AI Revolutionizes Predictive Maintenance in Manufacturing
Aug 31, 2024 1 Min Read
Ethereum Foundation Releases Q2 2024 ESP Allocation Update
Aug 31, 2024 1 Min Read