微软开源 Phi-Ground 4B 模型，在屏幕点击准确率方面优于 OpenAI Operator 和 Claude

2026-05-10 12:14:56

据 Beating 称，微软最近开源了 Phi-Ground 模型家族，旨在解决“AI 应该在计算机屏幕上点击哪里”的问题。该 40 亿参数版本，并结合用于指令规划的更大语言模型，在 Showdown 基准测试中超过了 OpenAI Operator 和 Claude Computer Use 的点击准确率，并在包括 ScreenSpot-Pro 在内的五项评估中位列所有 100 亿以下参数模型的第一名。

团队在超过 4000 万个数据样本上进行了训练，并发现学术论文中使用的三种常见训练技术在规模化时变得无效。关键思路证明很简单：以常规数字输出坐标，例如“523, 417.” 先前的研究为坐标发明了专门的位置词汇，但这些方法无法规模化。团队还发现，将文本指令放在图像之前可以提升性能，因为模型在处理像素时能够识别目标。此外，诸如 DPO 之类的强化学习方法在微调之后仍能提高准确率。

声明：文章不代表币小二观点及立场，不构成本平台任何投资建议。投资决策需建立在独立思考之上，本文内容仅供参考，风险自担！

微软开源 Phi-Ground 4B 模型，在屏幕点击准确率方面优于 OpenAI Operator 和 Claude

相关阅读

热门文章