Created
Jul 29, 2024 01:42 PM
Favorite
Favorite
Priority
备注
推荐
🌟🌟🌟
类型
模型测试
1背景介绍
什么是TTS?
TTS(Text-to-Speech,文本到语音)技术,即计算机系统将文本(如文字,数字,数学符号等)转换为听起来如同人类口语的语音。
应用场景
- 将书籍和文章转换为音频,让用户随时随地享受阅读。
- 智能语音助手通过TTS技术与用户进行自然对话。
- 导航系统通过TTS提供清晰、准确的驾驶指示。
大模型:重塑 TTS 技术
- 文本预处理:Transformer架构提升对复杂文本结构和语意的理解,确保精确的语言预测。
- 文本分析:大模型通过学习大量语料库,提高音素和韵律的映射质量,丰富TTS的表达能力。
- 声学模型:模型细致学习声音特性,捕获情感和风格,创造自然流畅的语音输出。
- 声码器:大模型的精度和处理能力允许TTS系统以更细腻的粒度(如音高、节奏和强度等)控制音频的产出。
2评测实践
传统TTS评测的局限性
传统方案 | 指标 | 局限 |
TTS评测方案 | • 主观质量:整体MOS
• 客观质量:ASR识别率 | • 整体MOS指标,概括性强但精度不足,细分层面的问题,无法提供具体指向性的反馈
• ASR识别率,只能量化语音可懂度,对自然度、流畅性和情感表达等听觉体验,无能为力 |
音频评测方案 | • 音频参数:声道、采样率、码率、频响、信噪比、失真…
• 语音质量:PESQ、STOI、POLQA | • 音频参数,关键于评估已录音频和通信质量
• 语音质量评估,关注的是自然界的声音在传输、转码、算法处理后的信号保真度 |
面向未来的 TTS 技术评估,必须跳出传统评测的框架,采用更加全面、深入的评估标准和方法,这样才能真正满足用户对高质量合成语音的需求,并推动TTS 技术向前发展。
TTS评测新思路
TTS评测流程
TTS测评指标
客观评价指标
| ㅤ | 含义 | 评价标准 |
一级指标 | 二级指标 | ㅤ | ㅤ |
ASR识别率 | -- | ASR系统正确识别合成语音中的文字或词汇的比率 | 字错率(WER)、句错率(SER) |
有效频宽 | -- | 信号包含的最低和最高频率成分之间的频率范围 | 20Hz到16kHz内有效频宽越高越好 |
发音准确性 | 多音字 | 汉字根据上下文会有不同的读音 | 分级标准5级:
1分 - 很差
2分 - 差
3分 - 一般
4分 - 良好
5分 - 优秀 |
ㅤ | 中英混合、符号 | 文本中同时包含中文和英文单词/缩写/特殊符号 | ㅤ |
ㅤ | 数字 | 看TTS系统是否能根据上下文准确地表述数字(包括阿拉伯数字、序数、小数、科学计数法、百分比等) | ㅤ |
音质 | 清晰度 | 语音的可懂度,高清晰度的语音可以使听者轻松地理解言语的含义。 | 分级标准5级:
1分 - 很差
2分 - 差
3分 - 一般
4分 - 良好
5分 - 优秀 |
ㅤ | 杂音、混音 | 任何不希望听到、与原始信号无关的背景声音,包括瞬态、稳态噪声或其他混音。 | ㅤ |
韵律
| 轻重音 | 通过增强特定音节的响度、时长或音高来实现的,使得这些音节在说话中显得更加突出。正确的重音和弱音模式对于单词的正确理解至关重要。 | 分级标准5级:
1分 - 很差
2分 - 差
3分 - 一般
4分 - 良好
5分 - 优秀
|
ㅤ | 高低音 | 高低音指的是语音中的音调变化。音调的准确模仿对于语音合成的自然度和可理解度至关重要。 | ㅤ |
ㅤ | 语速 | 说话的速度,包括每分钟单词的数量或者音节的数。合适的语速应当与说话者的意图以及语境相匹配。 | ㅤ |
ㅤ | 停顿 | 在说话中的短暂停止,可以在词语、短语或句子之间发生
。使其更易于理解,或者用于传达特定的语言或情感效果。 | ㅤ |
真人感 | 情感 | 根据语境和文本的含义,自然而合适地表现出欢乐、悲伤、愤怒、惊讶、安慰、后悔、同情等复杂情绪,让人感觉就像是一个真实的人在说话。 |
分级标准5级:
1分 - 很差
2分 - 差
3分 - 一般
4分 - 良好
5分 - 优秀
|
ㅤ | 口语化 | 包括俚语、缩略词、连读、吞音和语音弱化,适当包含非文字的交流元素,例如叹息、笑声或其他语气词。目标是让TTS系统生成的语音听起来像是实际的人类对话,而不是书面读物的朗读或者机械的语音输出。 | ㅤ |
ㅤ | 音色 | 音色是一个声音可以区别于其他声音(即使它们具有相同的音调和响度)的属性。在TTS系统中,音色关乎合成语音的愉悦程度以及它是否听起来像真实的人声。 | ㅤ |
3AI赋能TTS评测
大模型加持:高效、丰富的语料生成
多音字 | 请根据下面两个多音字和读音造句,拗:[ǎo]拗断;[ào]拗口;[niù]执拗。辟:[bì]复辟;[pì]另辟蹊径。 | 他不小心将篮球架上的篮网拗断了,这让他非常沮丧。他尝试着解释事情的经过......(省略)。 |
语速 | 帮我生成一些快速对话或节奏性文本。 | 快看!那边的天空突然变得一片火红.......(省略)。 |
情感 | 帮我生成一段包含激动情绪的文本。 | 天啊,你不会相信的!我刚刚接到了那个.......(省略)。 |
口语化 | 帮我生成一段非常口语化的文本。 | 得了得了,今天的工作简直是灾难。就那个什么紧急会议,磨磨唧唧开了整整三个小时.......(省略)。 |
…... | …… | …… |
大模型加持:自动化测评
优缺点对比
评测类型 | 优点 | 缺点 |
传统人工标注 | 确保评测精度的黄金标准 | 1.耗时且效率低下:对于快速迭代和改进TTS系统极为不利
2.成本高昂:多人众测模式,人力成本高 |
TTS质检大模型 | 1.提高评测的效率和降低成本
2.减少人为评测中的主观偏差 | 需要大量的标注数据沉淀,训练 |
多任务学习大模型
- 指标聚合:内在相关性高的二级指标替换为一级指标。减少模型复杂度的同时,维持核心评价标准。
- 多任务学习大模型:L-MTL Models ( Large Multi-Task Learning Models ),Mixture of Experts(MMoE)框架 +Transformer特征提取,为多个相关的评价任务提供支持。
- 为TTS评价提供了一个高效、适应性强的解决方案,确保了在多个关键维度上的全面且均衡评价。
全面评价 | 通过多维度的任务同时进行,L-MTL模型确保了TTS系统的综合评估,从自然性到情感表达等多个层面。 |
细节捕捉 | 结合Transformer架构,L-MTL能够从音频信号中提取丰富的特征,准确捕捉语音的微妙变化。 |
智能任务分配 | 利用MMoE门控机制,模型能够动态确定最适合处理特定评价任务的专家网络,提高评价的准确度。 |
知识共享 | 不同评价任务间能够共享学习到的知识,提升模型整体的效率和泛化能力。 |
模型灵活性 | L-MTL的模块化设计使得模型易于扩展和定制,适应不同的TTS评价需求和研究方向。 |
L-MTL Models 的基本架构
- 采用均方误差(MSE)作为损失函数,计算模型预测的打分与真实打分之间的差异。
- 各个单独任务损失的加权和,模型训练的目标是使其最小化。
L-MTL Models 业务价值
- 日评估合成语料10000+
- 单版本算法迭代,维持评测质量同时,评测时间缩短80%,人力节省70%
- 评测数据反哺 L-MTL 大模型
- 自动化监控线上质量
4招贤纳士
AI爆发,语音交互成为热点。支付宝诚邀语音算法评测达人加入,base深圳或杭州,有意者请联系18924668968 (手机号同微信)