Created
Jul 30, 2024 12:50 AM
Favorite
Favorite
Priority
备注
推荐
🌟🌟🌟🌟
类型
模型测试
1背景介绍

什么是TTS?

TTS(Text-to-Speech,文本到语音)技术,即计算机系统将文本(如文字,数字,数学符号等)转换为听起来如同人类口语的语音。
notion image

应用场景

  • 将书籍和文章转换为音频,让用户随时随地享受阅读。
  • 智能语音助手通过TTS技术与用户进行自然对话。
  • 导航系统通过TTS提供清晰、准确的驾驶指示。
notion image
notion image
notion image

大模型:重塑 TTS 技术

  • 文本预处理:Transformer架构提升对复杂文本结构和语意的理解,确保精确的语言预测。
  • 文本分析:大模型通过学习大量语料库,提高音素和韵律的映射质量,丰富TTS的表达能力。
  • 声学模型:模型细致学习声音特性,捕获情感和风格,创造自然流畅的语音输出。
  • 声码器:大模型的精度和处理能力允许TTS系统以更细腻的粒度(如音高、节奏和强度等)控制音频的产出。
notion image
2评测实践

传统TTS评测的局限性

传统方案
指标
局限
TTS评测方案
• 主观质量:整体MOS • 客观质量:ASR识别率
• 整体MOS指标,概括性强但精度不足,细分层面的问题,无法提供具体指向性的反馈 • ASR识别率,只能量化语音可懂度,对自然度、流畅性和情感表达等听觉体验,无能为力
音频评测方案
• 音频参数:声道、采样率、码率、频响、信噪比、失真… • 语音质量:PESQ、STOI、POLQA
• 音频参数,关键于评估已录音频和通信质量 • 语音质量评估,关注的是自然界的声音在传输、转码、算法处理后的信号保真度
面向未来的 TTS 技术评估,必须跳出传统评测的框架,采用更加全面、深入的评估标准和方法,这样才能真正满足用户对高质量合成语音的需求,并推动TTS 技术向前发展。

TTS评测新思路

notion image

TTS评测流程

notion image
TTS测评指标
notion image
客观评价指标
含义
评价标准
一级指标
二级指标
ASR识别率
--
ASR系统正确识别合成语音中的文字或词汇的比率
字错率(WER)、句错率(SER)
有效频宽
--
信号包含的最低和最高频率成分之间的频率范围
20Hz到16kHz内有效频宽越高越好
发音准确性
多音字
汉字根据上下文会有不同的读音
分级标准5级: 1分 - 很差 2分 - 差 3分 - 一般 4分 - 良好 5分 - 优秀
中英混合、符号
文本中同时包含中文和英文单词/缩写/特殊符号
数字
看TTS系统是否能根据上下文准确地表述数字(包括阿拉伯数字、序数、小数、科学计数法、百分比等)
音质
清晰度
语音的可懂度,高清晰度的语音可以使听者轻松地理解言语的含义。
分级标准5级: 1分 - 很差 2分 - 差 3分 - 一般 4分 - 良好 5分 - 优秀
杂音、混音
任何不希望听到、与原始信号无关的背景声音,包括瞬态、稳态噪声或其他混音。
韵律
轻重音
通过增强特定音节的响度、时长或音高来实现的,使得这些音节在说话中显得更加突出。正确的重音和弱音模式对于单词的正确理解至关重要。
分级标准5级: 1分 - 很差 2分 - 差 3分 - 一般 4分 - 良好 5分 - 优秀
高低音
高低音指的是语音中的音调变化。音调的准确模仿对于语音合成的自然度和可理解度至关重要。
语速
说话的速度,包括每分钟单词的数量或者音节的数。合适的语速应当与说话者的意图以及语境相匹配。
停顿
在说话中的短暂停止,可以在词语、短语或句子之间发生 。使其更易于理解,或者用于传达特定的语言或情感效果。
真人感
情感
根据语境和文本的含义,自然而合适地表现出欢乐、悲伤、愤怒、惊讶、安慰、后悔、同情等复杂情绪,让人感觉就像是一个真实的人在说话。
分级标准5级: 1分 - 很差 2分 - 差 3分 - 一般 4分 - 良好 5分 - 优秀
口语化
包括俚语、缩略词、连读、吞音和语音弱化,适当包含非文字的交流元素,例如叹息、笑声或其他语气词。目标是让TTS系统生成的语音听起来像是实际的人类对话,而不是书面读物的朗读或者机械的语音输出。
音色
音色是一个声音可以区别于其他声音(即使它们具有相同的音调和响度)的属性。在TTS系统中,音色关乎合成语音的愉悦程度以及它是否听起来像真实的人声。
3AI赋能TTS评测

大模型加持:高效、丰富的语料生成

notion image
多音字
请根据下面两个多音字和读音造句,拗:[ǎo]拗断;[ào]拗口;[niù]执拗。辟:[bì]复辟;[pì]另辟蹊径。
他不小心将篮球架上的篮网拗断了,这让他非常沮丧。他尝试着解释事情的经过......(省略)。
语速
帮我生成一些快速对话或节奏性文本。
快看!那边的天空突然变得一片火红.......(省略)。
情感
帮我生成一段包含激动情绪的文本。
天啊,你不会相信的!我刚刚接到了那个.......(省略)。
口语化
帮我生成一段非常口语化的文本。
得了得了,今天的工作简直是灾难。就那个什么紧急会议,磨磨唧唧开了整整三个小时.......(省略)。
…...
……
……

大模型加持:自动化测评

优缺点对比
评测类型
优点
缺点
传统人工标注
确保评测精度的黄金标准
1.耗时且效率低下:对于快速迭代和改进TTS系统极为不利 2.成本高昂:多人众测模式,人力成本高
TTS质检大模型
1.提高评测的效率和降低成本 2.减少人为评测中的主观偏差
需要大量的标注数据沉淀,训练

多任务学习大模型

  • 指标聚合:内在相关性高的二级指标替换为一级指标。减少模型复杂度的同时,维持核心评价标准。
  • 多任务学习大模型:L-MTL Models ( Large Multi-Task Learning Models ),Mixture of Experts(MMoE)框架 +Transformer特征提取,为多个相关的评价任务提供支持。
  • 为TTS评价提供了一个高效、适应性强的解决方案,确保了在多个关键维度上的全面且均衡评价。
notion image
全面评价
通过多维度的任务同时进行,L-MTL模型确保了TTS系统的综合评估,从自然性到情感表达等多个层面。
细节捕捉
结合Transformer架构,L-MTL能够从音频信号中提取丰富的特征,准确捕捉语音的微妙变化。
智能任务分配
利用MMoE门控机制,模型能够动态确定最适合处理特定评价任务的专家网络,提高评价的准确度。
知识共享
不同评价任务间能够共享学习到的知识,提升模型整体的效率和泛化能力。
模型灵活性
L-MTL的模块化设计使得模型易于扩展和定制,适应不同的TTS评价需求和研究方向。

L-MTL Models 的基本架构

notion image
  • 采用均方误差(MSE)作为损失函数,计算模型预测的打分与真实打分之间的差异。
  • 各个单独任务损失的加权和,模型训练的目标是使其最小化。

L-MTL Models 业务价值

notion image
  • 日评估合成语料10000+
  • 单版本算法迭代,维持评测质量同时,评测时间缩短80%,人力节省70%
  • 评测数据反哺 L-MTL 大模型
  • 自动化监控线上质量
4招贤纳士
AI爆发,语音交互成为热点。支付宝诚邀语音算法评测达人加入,base深圳或杭州,有意者请联系18924668968 (手机号同微信)
Loading...