StepFun 的 StepAudio 2.5 实时版登顶五项语音 AI 基准，胜过 GPT Realtime 1.5

2026-05-26 23:41:53

总部位于上海的 AI 实验室 StepFun 本周发布了 StepAudio 2.5 Realtime，这是一款端到端的实时语音模型，支持中文和英文。根据 StepFun 的测试，该模型在 2026 年 4 月接受测试的所有五项语音 AI 基准中均名列前茅，表现优于 OpenAI 的 GPT Realtime 1.5 和谷歌的 Gemini Live。

在副语言理解基准上——在 0–100 的量表上衡量情感和语速等声学特征感知能力——StepAudio 得分为 82.18，而 GPT Realtime 1.5 为 80.46，Gemini Live 为 58.05。在人类评估测试中，StepAudio 的得分为 80.41，而 GPT Realtime 1.5 为 68.01、Gemini Live 为 67.16。StepFun 使用一个百万级角色画像数据集训练了该模型，并结合针对角色扮演的强化学习，以在长时间对话中保持角色一致性。

声明：文章不代表币小二观点及立场，不构成本平台任何投资建议。投资决策需建立在独立思考之上，本文内容仅供参考，风险自担！

StepFun 的 StepAudio 2.5 实时版登顶五项语音 AI 基准，胜过 GPT Realtime 1.5

相关阅读

热门文章