生成式 AI 通过基于提示的代码生成颠覆了软件开发,现在蛋白质设计是下一个前沿。EvolutionaryScale 宣布发布其 ESM3 模型,这是第三代 ESM 模型,根据NVIDIA 博客,该模型可以同时推理蛋白质的序列、结构和功能,为蛋白质发现工程师提供了一个可编程平台。
这家初创公司源自 Meta FAIR(基础 AI 研究)部门,最近获得由 Lux Capital、Nat Friedman 和 Daniel Gross 领投的融资,并得到了 NVIDIA 的投资。EvolutionaryScale 处于可编程生物学的前沿,帮助研究人员设计可以靶向癌细胞、寻找有害塑料替代品、推动环境缓解等方面的蛋白质。
EvolutionaryScale 的 ESM3 模型使用 NVIDIA H100 Tensor Core GPU,成为有史以来用于生物基础模型的最强计算力。ESM3 模型拥有 980 亿参数,比其前身 ESM2 使用约 25 倍更多的 FLOPs 和 60 倍的数据。公司开发了一个包含 20 多亿蛋白质序列的数据库来训练其 AI 模型,提供适用于药物开发、疾病根除和大规模理解人类进化的技术。
利用 ESM3 加速生物研究
随着训练数据的显著进步,EvolutionaryScale 旨在通过 ESM3 加速蛋白质发现。该模型在采样自各种生物和生物群落的近 28 亿个蛋白质序列上进行了训练,使科学家能够提示模型以更高的准确性识别和验证新蛋白质。
ESM3 比以前的版本提供了实质性更新。该模型本身是生成式的,采用“全部对全部”的方法,这意味着可以将结构和功能注释作为输入,而不仅仅是输出。一旦公开,科学家可以微调该基础模型,基于其专有数据创建专门用途的模型。ESM3 在大量数据上的大规模生成式训练为计算机生物研究提供了革命性工具。
利用 NVIDIA BioNeMo 推动下一次重大突破
ESM3 为生物学家和蛋白质设计师提供了生成式 AI 的提升,改善了他们对蛋白质的设计和理解。通过简单的提示,可以生成具有提供的支架的新蛋白质,基于反馈自行改进其蛋白质设计,并根据用户指定的功能设计蛋白质。这些能力可以以任何组合使用以提供链式思维蛋白质设计,就像在与精通每个已知蛋白质序列复杂三维含义的研究人员通信一样。
EvolutionaryScale 的联合创始人兼工程副总裁 Tom Sercu 说:“在我们的内部测试中,我们对 ESM3 处理复杂提示的创造性响应能力印象深刻。它解决了一个极具挑战性的蛋白质设计问题,创造出一种新的绿色荧光蛋白。我们期望 ESM3 能帮助科学家加速他们的工作并开辟新的可能性——我们很高兴看到它对未来生命科学研究的贡献。”
EvolutionaryScale 今天将开放 API 以进行封闭测试,并提供用于非商业用途的小型 ESM3 版本的代码和权重。此版本将很快在NVIDIA BioNeMo,一个用于药物发现的生成式 AI 平台上可用。完整的 ESM3 模型家族将作为 NVIDIA NIM 微服务提供给精选客户,与 NVIDIA 合作优化运行时间,并通过 NVIDIA AI Enterprise 软件许可证在 ai.nvidia.com 上进行测试。
训练这些模型所需的计算能力正呈指数级增长。ESM3 使用 Andromeda 集群进行训练,该集群采用 NVIDIA H100 GPU 和 NVIDIA Quantum-2 InfiniBand 网络。ESM3 模型将可在精选合作伙伴平台和 NVIDIA BioNeMo 上使用。
Image source: Shutterstock