据《纽约时报》报道,谷歌的 AI 概览功能在使用 Gemini 3 时的准确率为 91%,这意味着它每小时会给出数千万条不正确的答案。基于谷歌每年处理超过 5 万亿次搜索,这相当于每分钟出现数十万条不准确的回复。

Oumi 使用 SimpleQA 基准的分析显示,Gemini 2 的准确率为 85%,而 Gemini 3 提升至 91%。