Created
Jul 29, 2024 01:42 PM
Favorite
Favorite
Priority
备注
推荐
🌟🌟🌟
类型
模型测试
notion image

写在前面

以下介绍来自于文章《阿里通义音频生成大模型 FunAudioLLM 开源!》
CosyVoice 致力于自然语音生成,支持多语言、音色和情感控制,在多语言语音生成、零样本语音生成、跨语言声音合成和指令执行能力方面表现卓越。
  • 多语言合成:采用了总共超15万小时的数据训练,支持中英日粤韩5种语言的合成,合成效果显著优于传统语音合成模型。
  • 极速音色模拟:仅需要3~10s的原始音频,即可生成模拟音色,甚至包括韵律、情感等细节。在跨语种的语音合成中,也有不俗的表现。
  • 富文本或自然语言的细粒度控制:支持以富文本或自然语言的形式,对合成语音的情感、韵律进行细粒度的控制,合成音频在情感表现力上得到明显提升。
看到这些介绍之后,笔者第一时间拉下来了项目代码进行了测试,测试完的结论同一句话总结:
阿里的CosyVoice模型具备tts,zero-shot TTS, 标签控制,自然语言控制这些方面的功能,效果稳定,韵律自然,音质高,是目前开源模型中表现非常优秀的项目之一了
以下是各方面能力的效果测试~
由于不方便提供测试的文本和音频,所以这里只能提供一下测试的结果,欢迎大家一起来讨论和交流哈~

Text-to-speech generation

功能描述:给定待合成的文本,指定说话人,合成相应的音频
模型:CosyVoice-300M
测试结论:在"中文男"和"中文女"两个说话人上进行测试,仅测试了中文+英文混合单词,合成的音频音质好,韵律自然,存在语句衔接和发音的小瑕疵,无其他问题

Zero-shot in-context generation

功能描述:给定audio prompt, 复刻说话人的音色和韵律,合成输入的文本对应的音频
模型:CosyVoice-300M
测试过程:随机挑选集外说话人的一句audio prompt, 合成指定的文本,共测试了12个说话人, 150句话
测试结论:
  1. zero-shot 复刻音色能力极强,12个说话人的音色几乎100%还原
    1. audio prompt低于3s的时候,复刻的音色相似度会下降
    2. audio prompt的频谱受损,不影响复刻音色能力
    3. 和GPT-sovits在音色复刻能力上表现相当
  1. 音质非常好,无电音抖动等情况出现
  1. 表现力:表现力真的不错,抑扬顿挫,自评表现力:GPT-sovits ~= CosyVoice ~= ChatTTS
  1. 发音:存在个别字变调的现象,但比例较低;部分多音字无法读对;"哈哈哈哈":能够正常发音,对于"哈哈哈哈"这种语气词,GPT-sovits>CosyVoice
  1. 停顿:存在停顿错误的情况,但比例相对较低,大部分都是诗歌和文言文停顿不对

Speaker Identity Control

功能:给定指定的speaker text description(对这个说话人的一些人物特点的描述,英文),给定待合成的文本,合成符合要求的声音特点对应的音频
模型:CosyVoice-300M-Instruct
测试结论:性别可控, 但是不能体现出细粒度的差异,比如年龄,职业,脾气等

Style Control + Fine-grained Control(标签控制)

功能:给定指定的style text description(对这个说话人的声音特点的描述,英文),给定待合成的文本,合成符合要求的声音特点对应的音频
模型:CosyVoice-300M-Instruct
测试结论:性别+情感+标签基本可控
  1. 性别基本可控但需要调指示词
  1. 情感可控:5种情感:netural, sad, happy, fearful, angry, 尤其是zhiling-1, 合成的音频里面有哭腔
  1. laughter : 可合成笑声,但有的时候笑声音量过大,跟合成的音频部分音量不一致,听起来有些突兀
  1. strong : 不同的语句合成出来的"强弱"程度不一样,有些能听出来加强了语气,有些则没有
  1. breath : 表现等同于strong
  1. pitch和speaking rate的体现不明显

其他

一个小测试:不加"style control instruct", TTS模型能够自动根据文本来调整情感变化吗?
答案是:不能
测试了如下5句话,语义上带有比较明显的情感倾向,但是合成的音频中基本都是比较"neural"的情感
语音大模型4
语音合成8
开源1
Loading...