小米开源 OmniVoice，支持 646 种语言的零样本语音克隆模型

2026-05-07 18:37:00

据 Beating 称，Xiaomi 的 AI Lab Kaldi 团队已开源 OmniVoice，这是一种零样本语音克隆 TTS 模型，支持 646 种语言。该模型仅需几秒钟的参考音频即可克隆语音特征，并可跨语言工作——同一个声音能够合成普通话、日语、韩语以及其他语言的语音。所有代码、权重和训练数据均在 Apache-2.0 许可下开源。

OmniVoice 采用简化架构，使用单个双向 Transformer，直接将文本映射到离散的声学标记，从而在 PyTorch 中实现比实时快 40 倍的推理速度。该模型在来自 50 个开源数据集的 580,000 小时音频上进行训练。在对 24 种测试语言的评估中，OmniVoice 在语音相似度和可懂度方面优于商业系统；在 102 种语言中，它与人类录音相当或表现更好。

声明：文章不代表币小二观点及立场，不构成本平台任何投资建议。投资决策需建立在独立思考之上，本文内容仅供参考，风险自担！

小米开源 OmniVoice，支持 646 种语言的零样本语音克隆模型

相关阅读

热门文章