贝壳财经

从贝壳里,听到时代浪潮的声音

立即打开
阿里发布两款语音新模型,可定制角色及模拟背景音
贝壳财经 记者 罗亦丹 编辑 杨娟娟
2026-03-02 12:25

新京报贝壳财经讯(记者罗亦丹)3月2日,阿里发布两款语音新模型,基于参考音频的声音克隆模型Fun-CosyVoice3.5和无参考音频的音色设计模型Fun-AudioGen-VD。两款模型均引入了强大的“指令遵循”能力,自由控制声音的情感、语速、场景等,可用freestyle(自由风格模式)定制角色,适用于有声书、游戏、客服、播客、教育、直播等多个场景。


在Seed-TTS基准测试的中文“困难案例”指标中,Fun-CosyVoice3.5表现抢眼,词错误率(Word Error Rate, WER)和说话人相似度(Speaker Similarity, SSIM)均为最佳。同时,因为优化了“困难案例”的发音,生僻字句错率由15.2%降低到5.3%。


Fun-CosyVoice3.5支持自由风格模式指令控制,解决了传统克隆模型只会模仿不能指定角色的痛点。比如录制一个人的声音后,可以输入指令,假设其是一位资深客服,正在面对极度愤怒客户,回复的语气需要柔软、真诚、充满愧疚,并对客户的情绪感同身受。


Fun-AudioGen-VD则专注“从无到有”的音色设计,其不仅能根据描述定制音色和情感,还能同步模拟复杂的听觉环境,如在生成人声时,可添加指定类型的背景声音,如城市车流、雨声、风噪、战场炮火、警报声、无线电杂音、咖啡馆人声、俱乐部音乐、图书馆翻书声等。

编辑 杨娟娟

校对 陈荻雁





来阅读我的更多文章吧
罗亦丹
贝壳财经记者
记者主页
展开全文
全文
0字
您已阅读
%
打开贝壳财经APP 阅读更多精彩资讯
相关推荐
​AWE观察|“智能经济”之下,家电产业争夺智能终端入口
科技
记者“养虾”手记:体验五天,发现目前“龙虾”并不适合普通用户
科技
AI“顽童”,寻找下一个LABUBU
科技
23款App8款“使不动”:“五大派”围剿豆包手机,实测来了
科技
《2025中国“宝藏小城”旅游报告》全文发布
财经
《2025年轻人生活方式报告》全文发布
财经
记者实测|智能体按下“加速键” 大厂争当MCP“应用商店”
科技
AI变声制造“明星代言”:克隆刘晓庆声音悄悄带货
科技
站在风口的AI玩具:价格不菲仍卖爆,是儿童“新宠”还是智商税
科技
关怀人文、赋能科研 科大讯飞展示AI如何改变生活
科技