AI模型Geneformer利用有限数据解锁基因网络 - Blockchain.News

AI模型Geneformer利用有限数据解锁基因网络

realtime news Jul 15, 2024 15:01

由Broad研究所和哈佛大学开发的AI模型Geneformer使用有限的数据来预测基因行为和疾病机制,加速药物发现。

AI模型Geneformer利用有限数据解锁基因网络

Geneformer,一个强大的人工智能(AI)模型,已经成为理解使用有限数据的基因网络动态和交互的显著工具。该模型由麻省理工学院和哈佛大学的Broad研究所的研究人员开发,利用来自广泛单细胞转录组数据的迁移学习,精准预测基因行为和疾病机制,促进了更快的药物靶点发现,并推进了对复杂遗传网络的理解,正如NVIDIA技术博客所述。

单细胞数据的BERT类参考模型

Geneformer采用了一个类似于BERT的转换架构,该架构在大约3000万个不同人类组织的单细胞转录组数据上进行预训练。其注意机制关注输入数据中最相关的部分,使模型能够考虑基因之间的关系和依赖性。在预训练阶段,Geneformer使用了掩码语言模型技术,其中部分基因表达数据被掩盖,模型学习根据周围环境预测被掩盖的基因。这种方法使模型能够理解复杂的基因交互而无需标记数据。

这种架构和训练方法在与染色质和基因网络动态有关的各种任务中提高了预测准确性,即使数据有限。例如,Geneformer可以仅使用5000个细胞的数据重建心脏内皮细胞中的关键基因网络,而之前使用最先进的方法需要超过30000个细胞。

增强的预测能力

Geneformer在特定细胞类型分类任务中也展示了惊人的准确性。使用克罗恩病小肠数据集进行评估,NVIDIA BioNeMo模型在准确性和F1得分方面显示出相对于基线模型的性能提升。比较中使用了基线Logp1 PCA+RF模型,该模型在归一化和对数转换的表达计数上训练。具有10M和106M参数的Geneformer模型在细胞注释准确性和F1得分方面优于这些基线模型。

可扩展性和高级功能

为了支持基于Geneformer的下一代模型,BioNeMo框架引入了两个新功能。首先,一个数据加载器加速了数据加载速度,是已发布方法的四倍,同时保持了对原始数据类型的兼容性。其次,Geneformer现在支持张量和流水线并行,这有助于管理内存约束并减少训练时间,使得利用多个GPU训练具有数十亿参数的模型成为可能。

Geneformer是NVIDIA Clara工具套件中加速单细胞和空间组学分析工具的不断增长的一部分。这些工具可以集成到互补的药物发现研究工作流程中,以此为例,见于转化基因组研究所 (TGen) 的研究。包括RAPIDS-SINGLECELL工具包和ScanPy库在内的RAPIDS编程库套件,加速了组学数据的预处理、可视化、聚类、轨迹推断和差异表达测试。

疾病建模的基础AI模型

Geneformer的应用范围从分子到有机体规模问题,使其成为生物研究的多功能工具。该模型现已开源并可用于研究。它支持零样本学习,使其能够预测未明确训练的数据类别。例如,在基因调控研究中,Geneformer可以在测量转录因子水平变化对基因表达影响的数据集上进行微调,帮助理解基因调控和潜在的治疗干预措施。

在捕获分化过程中的细胞状态转换数据集上微调Geneformer,可以实现精确的细胞状态分类,帮助理解分化过程和发育。该模型还可以识别转录因子之间的协作互动,增强对复杂调控机制的理解。

开始使用

6层(3000万参数)和12层(1.06亿参数)模型,以及完全加速的训练和部署示例代码,可以通过NVIDIA NGC上的NVIDIA BioNeMo框架获得。

Image source: Shutterstock