xAI 发布了 Grok-1.5 Vision 多模态 AI 模型的预览版,增强了对物理世界的理解。

埃隆·马斯克 (Elon Musk) 的人工智能初创公司 xAI 发布了 Grok-1.5 Vision 的预览版,这是其第一个多模态人工智能模型,该公司表示,该模型比竞争对手更能理解物理世界。

除了标准文本功能外,Grok-1.5V 还可以处理各种视觉信息,包括文档、图表、图形、屏幕截图和照片。该模型很快将提供给早期测试者和当前 Grok 用户。

xAI 声称,Grok-1.5V 在多个领域(从多学科推理到理解文档、科学图表、图形、屏幕截图和照片)与当今最好的多模态模型具有竞争力。

该公司发布了一个表格,将 Grok 在各种基准测试中的表现与 OpenAI 的 GPT-4、Anthropic 的 Claude 和 Gemini Pro 等竞争模型进行比较。 Grok 在大多数领域取得了同等甚至更好的成绩。

xAI 强调了 Grok 通过新推出的 RealWorldQA 基准来衡量的理解物理世界的能力,该基准测试对现实世界的空间理解。 Grok 使用零样本提示(提示中没有给出示例解决方案),表现优于竞争对手。

Grok 1.5V 的视觉能力与竞争对手相比。 |图片来源:xAI

分享

文章原文链接:https://www.anquanke.com/post/id/295629