Mistral AI 宣布推出 Pixtral Large,一款具有开创性的新型1240亿参数开放权重多模态模型,建立在 Mistral Large 2 的能力之上。这个最新的模型展示了先进的图像理解能力,特别是在处理文档、图表和自然图像方面,同时保持卓越的文本理解能力。
高级性能指标
Pixtral Large 在一系列标准多模态基准上被评估,对比领先模型。在 MathVista 中,测试复杂数学推理与视觉数据的结合,Pixtral Large 达到了令人瞩目的69.4%得分,超越了该类别的所有其他模型。此外,在 ChartQA 和 DocVQA 中,Pixtral Large 超过了 GPT-4o 和 Gemini-1.5 Pro 等知名模型,这些模型评估复杂图表和文档的推理能力。
在 MM-MT-Bench 上,该模型也展示了竞争能力,超越了 Claude-3.5 Sonnet(新的)、Gemini-1.5 Pro 和 GPT-4o(最新的)。MM-MT-Bench 作为一个开源、基于评委的评估工具,反映了多模态语言模型的真实世界应用。
模型规格和应用
Pixtral Large 配备了一个1230亿参数的多模态解码器和一个10亿参数的视觉编码器。它设计有一个128K上下文窗口,能够处理至少30张高分辨率图像,确保广泛的数据处理能力。
Pixtral Large 可用于学术和研究目的的 Mistral 研究许可证,以及商业应用的商业许可证,计划革新企业利用AI进行文档分析、图表解释等的方式。
真实世界的使用案例
在实际应用中,Pixtral Large 在多语言光学字符识别(OCR)和推理任务中表现优异。例如,在分析一张德国收据时,模型能准确计算总数并加入18%的小费,展示了其处理真实场景的能力。
除了文档处理外,模型在图表分析中的能力还包括识别训练损失曲线中的关键不稳定点,突显了其在技术和商业环境中的实用性。
持续创新
除了 Pixtral Large,Mistral AI 还更新了其旗舰文本模型 Mistral Large,现推出为 Mistral Large 24.11。此版本在长上下文理解、新系统提示及增强功能调用方面进行了改进,专为企业级用例如知识探索、语义文档理解和任务自动化而设计。
Mistral Large 24.11 将通过 Google Cloud 和 Microsoft Azure 等云提供商提供,提升其对寻求先进AI解决方案的企业的可用性。
欲了解更多详情,请访问 Mistral AI 网站。
Image source: Shutterstock