苹果正在试验可以“看”的人工智能模型

苹果研究人员表示，他们正在研究能够理解上下文的大型语言模型，其中一个“性能明显优于”GPT-4。

在一篇题为《ReALM：参考解析作为语言建模》的新论文中，Apple 研究人员详细介绍了他们在可以理解语言和非语言上下文的大型语言模型 (LLM) 方面的工作。

“人类言语通常包含不明确的引用，例如“他们”或“那个”，在给定上下文的情况下，其含义（对于其他人）是显而易见的。能够理解上下文，包括诸如此类的参考文献，对于会话助理来说至关重要，”该论文写道。

研究人员表示，让用户能够对屏幕上看到的内容发出查询也是“确保语音助手真正免提体验的关键一步”，并暗示了苹果对 Siri 的计划。

该论文称，虽然语言模型在序列到序列的任务上表现“非常好”，但让它们“看到”用户可能在屏幕上引用的内容却具有挑战性。

研究人员将他们的实验与 OpenAI 的 GPT-3.5 和 GPT-4 进行了基准测试。他们表示，他们最小的模型实现了与 GPT-4 相当的性能，而较大的模型“大大优于”它。

这篇发表在开放获取平台arXiv上的论文也指出了该研究的缺点。

研究人员表示：“虽然我们的方法可以有效地编码屏幕上实体的位置，但我们发现它会导致信息丢失，而这些信息可能无法解决依赖于细致入微的位置理解的复杂用户查询。”

然而，探索“更复杂”的方法，例如将屏幕分割成网格并将相对空间位置编码为文本，“是未来探索的一个有前途的途径。”

去年有报道称，苹果公司创建了自己的生成式人工智能工具，以与 OpenAI 和谷歌的产品竞争，但尚未决定何时向消费者发布该技术。

文章原文链接:https://www.anquanke.com/post/id/295265

日历