OpenAI 在实时 API 中发布三款语音模型;GPT-Realtime-2 具备 128K 上下文窗口
2026-05-08 09:26:59
据 Beating,OpenAI 在其 Realtime API 中发布了三个语音模型:用于带推理的语音对话的 GPT-Realtime-2、用于实时翻译的 GPT-Realtime-Translate,以及用于流式转录的 GPT-Realtime-Whisper。GPT-Realtime-2 是 OpenAI 首个具备 GPT-5 级推理能力的语音模型,将上下文窗口从 32K 扩展到 128K 个 token,并支持长达 1-2 小时的高密度对话。
与 GPT-Realtime-1.5 相比,GPT-Realtime-2 在 Big Bench Audio 基准上提升了 15.2%,在 Audio MultiChallenge 上提升了 13.8%。GPT-Realtime-Translate 支持 70+ 种输入语言,并翻译为 13 种输出语言。定价:GPT-Realtime-2 的输入为 $32/百万输入 token,输出为 $64/百万输出 token;Translate 为 $0.034/分钟;Whisper 为 $0.017/分钟。
声明:文章不代表币小二观点及立场,不构成本平台任何投资建议。投资决策需建立在独立思考之上,本文内容仅供参考,风险自担!