StepFun 的 StepAudio 2.5 实时版登顶五项语音 AI 基准,胜过 GPT Realtime 1.5
2026-05-26 23:41:53
总部位于上海的 AI 实验室 StepFun 本周发布了 StepAudio 2.5 Realtime,这是一款端到端的实时语音模型,支持中文和英文。根据 StepFun 的测试,该模型在 2026 年 4 月接受测试的所有五项语音 AI 基准中均名列前茅,表现优于 OpenAI 的 GPT Realtime 1.5 和谷歌的 Gemini Live。
在副语言理解基准上——在 0–100 的量表上衡量情感和语速等声学特征感知能力——StepAudio 得分为 82.18,而 GPT Realtime 1.5 为 80.46,Gemini Live 为 58.05。在人类评估测试中,StepAudio 的得分为 80.41,而 GPT Realtime 1.5 为 68.01、Gemini Live 为 67.16。StepFun 使用一个百万级角色画像数据集训练了该模型,并结合针对角色扮演的强化学习,以在长时间对话中保持角色一致性。
声明:文章不代表币小二观点及立场,不构成本平台任何投资建议。投资决策需建立在独立思考之上,本文内容仅供参考,风险自担!