xAI 推出 Grok-1.5 Vision 多模态 AI 模型和物理世界基准

xAI 发布了 Grok-1.5 Vision 多模态 AI 模型的预览版，增强了对物理世界的理解。

埃隆·马斯克 (Elon Musk) 的人工智能初创公司 xAI 发布了 Grok-1.5 Vision 的预览版，这是其第一个多模态人工智能模型，该公司表示，该模型比竞争对手更能理解物理世界。

除了标准文本功能外，Grok-1.5V 还可以处理各种视觉信息，包括文档、图表、图形、屏幕截图和照片。该模型很快将提供给早期测试者和当前 Grok 用户。

xAI 声称，Grok-1.5V 在多个领域（从多学科推理到理解文档、科学图表、图形、屏幕截图和照片）与当今最好的多模态模型具有竞争力。

该公司发布了一个表格，将 Grok 在各种基准测试中的表现与 OpenAI 的 GPT-4、Anthropic 的 Claude 和 Gemini Pro 等竞争模型进行比较。 Grok 在大多数领域取得了同等甚至更好的成绩。

xAI 强调了 Grok 通过新推出的 RealWorldQA 基准来衡量的理解物理世界的能力，该基准测试对现实世界的空间理解。 Grok 使用零样本提示（提示中没有给出示例解决方案），表现优于竞争对手。

Grok 1.5V 的视觉能力与竞争对手相比。 |图片来源：xAI

日历