Mistral AI 推出 Pixtral 12B：颠覆性的多模态模型

realtime news Sep 18, 2024 11:58 UTC 03:58

1 Min Read

Mistral AI 正式推出了 Pixtral 12B，这是公司首次推出的多模态模型，设计用于无缝处理文本和图像数据。根据Mistral AI介绍，该模型在 Apache 2.0 许可证下发布。

Pixtral 12B 的主要特性

Pixtral 12B 因其本机多模态能力而脱颖而出，使用交错的图像和文本数据进行训练。该模型采用了一个新的 400M 参数的视觉编码器和一个基于 Mistral Nemo 的 12B 参数的多模态解码器。该架构使其支持可变图像大小和长宽比，并在其长达 128K 标记的长上下文窗口中处理多张图像。

在性能方面，Pixtral 12B 在多模态任务中表现出色，并在仅文本基准测试中保持最先进的性能。它在 MMMU 推理基准测试中获得了 52.5% 的得分，超越了几款更大的模型。

性能和评估

Pixtral 12B 被设计为 Mistral Nemo 12B 的即插即用替代品，在不损失文本功能（如指令跟随、编码和数学）能力的情况下，提供一流的多模态推理性能。该模型使用一致的评估工具在各种数据集上进行评估，并优于 Claude 3 Haiku 等开放和闭合模型。值得注意的是，Pixtral 在多模态基准测试中甚至匹配或超过了如 LLaVa OneVision 72B 等更大型的模型。

在指令跟随方面，Pixtral 特别出色，在相对于最近的开源模型的文本 IF-Eval 和 MT-Bench 中表现出 20% 的相对提升。它还在多模态指令跟随基准测试中表现出色，优于 Qwen2-VL 7B 和 Phi-3.5 Vision 等模型。

架构和能力

Pixtral 12B 的架构设计旨在优化速度和性能。视觉编码器以其原生分辨率和长宽比对图像进行标记，将每个 16x16 街区的图像转换为图像标记。然后将这些标记展平以创建序列，并在行间和图像末尾添加 [IMG BREAK] 和 [IMG END] 标记。这允许模型准确理解复杂的图表和文档，同时为较小图像提供快速推理速度。

Pixtral 的最终架构包括两个组件：视觉编码器和多模态变压器解码器。该模型被训练在交错的图像和文本数据上预测下一个文本标记，从而允许其在 128K 标记的大上下文窗口中处理任意大小的图像。

实际应用

Pixtral 12B 在各种实际应用中表现出色，包括对复杂图形的推理、图表理解和多图像指令跟随。例如，它可以将来自多个表格的信息合并为一个 Markdown 表格，或根据图像提示生成 HTML 代码来创建网站。

如何访问 Pixtral

用户可以通过 Le Chat（Mistral AI 的对话聊天界面）或通过 La Plateforme（允许通过 API 调用进行集成）轻松试用 Pixtral。详细文档对于那些有兴趣在其应用中利用 Pixtral 能力的人来说是可用的。

对于那些更喜欢本地运行 Pixtral 的用户，可以通过 mistral-inference 库或 vLLM 库访问该模型，这些库提供更高的服务吞吐量。详细的设置和使用说明在文档中提供。

News ▸

Mistral AI 推出 Pixtral 12B：颠覆性的多模态模型

Pixtral 12B 的主要特性

性能和评估

架构和能力

实际应用

如何访问 Pixtral

Read More

Filament Raises $1.1 Million in Seed Funding to Enhance Derivatives DEX on Sei Network

Mistral AI Unveils Pixtral 12B: A Groundbreaking Multimodal Model

Mistral.ai Announces New Free API, Pricing Updates, and Enhanced Models

ETHCC Web3 Social Day Panel Discusses Future of Decentralized Social Networks

GitHub Copilot Extensions Enter Public Beta, Expanding AI-Assisted Development