小米发布 ControlFoley,开放源代码的视频音频框架,支持精确的声音控制
2026-05-29 19:17:48
据 Beating 称,小米的 AI 团队发布并开源了 ControlFoley,这是一个用于视频音频生成的框架,能够通过文本描述或参考音频为创作者提供对声音风格的精确控制。与传统的 AI 配音系统仅根据视觉内容推断声音不同,ControlFoley 允许创作者在保持音视频同步的同时修改音频特征——例如将敲门声改为金属撞击,或为网球撞击应用鼓点音色。该框架采用时空音频-视觉编码器,并使用时间-音色解耦策略。该项目的技术报告、代码、模型权重和演示现在均已提供。
声明:文章不代表币小二观点及立场,不构成本平台任何投资建议。投资决策需建立在独立思考之上,本文内容仅供参考,风险自担!