OpenAI 在实时 API 中发布三款语音模型;GPT-Realtime-2 具备 128K 上下文窗口
据 Beating,OpenAI 在其 Realtime API 中发布了三个语音模型:用于带推理的语音对话的 GPT-Realtime-2、用于实时翻译的 GPT-Realtime-Translate,以及用于流式转录的 GPT-Realtime-Whisper。GPT-Realtime-2 是 OpenAI 首个具备 GPT-5 级推理能力的语音模型,将上下文窗口从 32K 扩展到 128K 个 token,并支持长达 1-2 小时的高密度对话。