OpenAI 在实时 API 中发布三款语音模型；GPT-Realtime-2 具备 128K 上下文窗口

2026-05-08 09:26:59

据 Beating，OpenAI 在其 Realtime API 中发布了三个语音模型：用于带推理的语音对话的 GPT-Realtime-2、用于实时翻译的 GPT-Realtime-Translate，以及用于流式转录的 GPT-Realtime-Whisper。GPT-Realtime-2 是 OpenAI 首个具备 GPT-5 级推理能力的语音模型，将上下文窗口从 32K 扩展到 128K 个 token，并支持长达 1-2 小时的高密度对话。

与 GPT-Realtime-1.5 相比，GPT-Realtime-2 在 Big Bench Audio 基准上提升了 15.2%，在 Audio MultiChallenge 上提升了 13.8%。GPT-Realtime-Translate 支持 70+ 种输入语言，并翻译为 13 种输出语言。定价：GPT-Realtime-2 的输入为 $32/百万输入 token，输出为 $64/百万输出 token；Translate 为 $0.034/分钟；Whisper 为 $0.017/分钟。

声明：文章不代表币小二观点及立场，不构成本平台任何投资建议。投资决策需建立在独立思考之上，本文内容仅供参考，风险自担！

OpenAI 在实时 API 中发布三款语音模型；GPT-Realtime-2 具备 128K 上下文窗口

相关阅读

热门文章