Mistral AI 正式推出了 Pixtral 12B,这是公司首次推出的多模态模型,设计用于无缝处理文本和图像数据。根据Mistral AI介绍,该模型在 Apache 2.0 许可证下发布。
Pixtral 12B 的主要特性
Pixtral 12B 因其本机多模态能力而脱颖而出,使用交错的图像和文本数据进行训练。该模型采用了一个新的 400M 参数的视觉编码器和一个基于 Mistral Nemo 的 12B 参数的多模态解码器。该架构使其支持可变图像大小和长宽比,并在其长达 128K 标记的长上下文窗口中处理多张图像。
在性能方面,Pixtral 12B 在多模态任务中表现出色,并在仅文本基准测试中保持最先进的性能。它在 MMMU 推理基准测试中获得了 52.5% 的得分,超越了几款更大的模型。
性能和评估
Pixtral 12B 被设计为 Mistral Nemo 12B 的即插即用替代品,在不损失文本功能(如指令跟随、编码和数学)能力的情况下,提供一流的多模态推理性能。该模型使用一致的评估工具在各种数据集上进行评估,并优于 Claude 3 Haiku 等开放和闭合模型。值得注意的是,Pixtral 在多模态基准测试中甚至匹配或超过了如 LLaVa OneVision 72B 等更大型的模型。
在指令跟随方面,Pixtral 特别出色,在相对于最近的开源模型的文本 IF-Eval 和 MT-Bench 中表现出 20% 的相对提升。它还在多模态指令跟随基准测试中表现出色,优于 Qwen2-VL 7B 和 Phi-3.5 Vision 等模型。
架构和能力
Pixtral 12B 的架构设计旨在优化速度和性能。视觉编码器以其原生分辨率和长宽比对图像进行标记,将每个 16x16 街区的图像转换为图像标记。然后将这些标记展平以创建序列,并在行间和图像末尾添加 [IMG BREAK] 和 [IMG END] 标记。这允许模型准确理解复杂的图表和文档,同时为较小图像提供快速推理速度。
Pixtral 的最终架构包括两个组件:视觉编码器和多模态变压器解码器。该模型被训练在交错的图像和文本数据上预测下一个文本标记,从而允许其在 128K 标记的大上下文窗口中处理任意大小的图像。
实际应用
Pixtral 12B 在各种实际应用中表现出色,包括对复杂图形的推理、图表理解和多图像指令跟随。例如,它可以将来自多个表格的信息合并为一个 Markdown 表格,或根据图像提示生成 HTML 代码来创建网站。
如何访问 Pixtral
用户可以通过 Le Chat(Mistral AI 的对话聊天界面)或通过 La Plateforme(允许通过 API 调用进行集成)轻松试用 Pixtral。详细文档对于那些有兴趣在其应用中利用 Pixtral 能力的人来说是可用的。
对于那些更喜欢本地运行 Pixtral 的用户,可以通过 mistral-inference 库或 vLLM 库访问该模型,这些库提供更高的服务吞吐量。详细的设置和使用说明在文档中提供。
Image source: Shutterstock