阿里语音生成大模型CosyVoice：开源模型效果测试

Created

Jul 29, 2024 01:42 PM

Favorite

Priority

URL

https://mp.weixin.qq.com/s/RAX_eIIc-UCMB2BZO4bCOw

备注

写在前面

以下介绍来自于文章《阿里通义音频生成大模型 FunAudioLLM 开源！》

CosyVoice 致力于自然语音生成，支持多语言、音色和情感控制，在多语言语音生成、零样本语音生成、跨语言声音合成和指令执行能力方面表现卓越。

多语言合成：采用了总共超15万小时的数据训练，支持中英日粤韩5种语言的合成，合成效果显著优于传统语音合成模型。

极速音色模拟：仅需要3~10s的原始音频，即可生成模拟音色，甚至包括韵律、情感等细节。在跨语种的语音合成中，也有不俗的表现。

富文本或自然语言的细粒度控制：支持以富文本或自然语言的形式，对合成语音的情感、韵律进行细粒度的控制，合成音频在情感表现力上得到明显提升。

看到这些介绍之后，笔者第一时间拉下来了项目代码进行了测试，测试完的结论同一句话总结：

阿里的CosyVoice模型具备tts，zero-shot TTS, 标签控制，自然语言控制这些方面的功能，效果稳定，韵律自然，音质高，是目前开源模型中表现非常优秀的项目之一了

以下是各方面能力的效果测试~

由于不方便提供测试的文本和音频，所以这里只能提供一下测试的结果，欢迎大家一起来讨论和交流哈~

Text-to-speech generation

功能描述：给定待合成的文本，指定说话人，合成相应的音频

模型：CosyVoice-300M

测试结论：在"中文男"和"中文女"两个说话人上进行测试，仅测试了中文+英文混合单词，合成的音频音质好，韵律自然，存在语句衔接和发音的小瑕疵，无其他问题

Zero-shot in-context generation

功能描述：给定audio prompt, 复刻说话人的音色和韵律，合成输入的文本对应的音频

模型：CosyVoice-300M

测试过程：随机挑选集外说话人的一句audio prompt, 合成指定的文本，共测试了12个说话人， 150句话

测试结论：

zero-shot 复刻音色能力极强，12个说话人的音色几乎100%还原

audio prompt低于3s的时候，复刻的音色相似度会下降
audio prompt的频谱受损，不影响复刻音色能力
和GPT-sovits在音色复刻能力上表现相当

音质非常好，无电音抖动等情况出现

表现力：表现力真的不错，抑扬顿挫，自评表现力：GPT-sovits ~= CosyVoice ~= ChatTTS

发音：存在个别字变调的现象，但比例较低；部分多音字无法读对；"哈哈哈哈"：能够正常发音，对于"哈哈哈哈"这种语气词，GPT-sovits>CosyVoice

停顿：存在停顿错误的情况，但比例相对较低，大部分都是诗歌和文言文停顿不对

Speaker Identity Control

功能：给定指定的speaker text description(对这个说话人的一些人物特点的描述，英文)，给定待合成的文本，合成符合要求的声音特点对应的音频

模型：CosyVoice-300M-Instruct

测试结论：性别可控，但是不能体现出细粒度的差异，比如年龄，职业，脾气等

Style Control + Fine-grained Control(标签控制)

功能：给定指定的style text description(对这个说话人的声音特点的描述，英文)，给定待合成的文本，合成符合要求的声音特点对应的音频

模型：CosyVoice-300M-Instruct

测试结论：性别+情感+标签基本可控

性别基本可控但需要调指示词

情感可控：5种情感：netural, sad, happy, fearful, angry, 尤其是zhiling-1, 合成的音频里面有哭腔

laughter : 可合成笑声，但有的时候笑声音量过大，跟合成的音频部分音量不一致，听起来有些突兀

strong : 不同的语句合成出来的"强弱"程度不一样，有些能听出来加强了语气，有些则没有

breath : 表现等同于strong

pitch和speaking rate的体现不明显

其他

一个小测试：不加"style control instruct", TTS模型能够自动根据文本来调整情感变化吗？

答案是：不能

测试了如下5句话，语义上带有比较明显的情感倾向，但是合成的音频中基本都是比较"neural"的情感

语音大模型4

语音合成8

开源1