QECon技术分享-大模型语音对话时代的TTS评测实践

Created

Jul 30, 2024 12:50 AM

Favorite

Priority

URL

https://mp.weixin.qq.com/s/UCMG08qy48d7uDTbfEBysA

备注

什么是TTS？

TTS（Text-to-Speech，文本到语音）技术，即计算机系统将文本（如文字，数字，数学符号等）转换为听起来如同人类口语的语音。

应用场景

将书籍和文章转换为音频，让用户随时随地享受阅读。

智能语音助手通过TTS技术与用户进行自然对话。

导航系统通过TTS提供清晰、准确的驾驶指示。

大模型：重塑 TTS 技术

文本预处理：Transformer架构提升对复杂文本结构和语意的理解，确保精确的语言预测。

文本分析：大模型通过学习大量语料库，提高音素和韵律的映射质量，丰富TTS的表达能力。

声学模型：模型细致学习声音特性，捕获情感和风格，创造自然流畅的语音输出。

声码器：大模型的精度和处理能力允许TTS系统以更细腻的粒度（如音高、节奏和强度等）控制音频的产出。

2评测实践

传统TTS评测的局限性

传统方案	指标	局限
TTS评测方案	• 主观质量：整体MOS • 客观质量：ASR识别率	• 整体MOS指标，概括性强但精度不足，细分层面的问题，无法提供具体指向性的反馈 • ASR识别率，只能量化语音可懂度，对自然度、流畅性和情感表达等听觉体验，无能为力
音频评测方案	• 音频参数：声道、采样率、码率、频响、信噪比、失真… • 语音质量：PESQ、STOI、POLQA	• 音频参数，关键于评估已录音频和通信质量 • 语音质量评估，关注的是自然界的声音在传输、转码、算法处理后的信号保真度

面向未来的 TTS 技术评估，必须跳出传统评测的框架，采用更加全面、深入的评估标准和方法，这样才能真正满足用户对高质量合成语音的需求，并推动TTS 技术向前发展。

TTS评测新思路

TTS评测流程

TTS测评指标

客观评价指标	ㅤ	含义	评价标准
一级指标	二级指标	ㅤ	ㅤ
ASR识别率	--	ASR系统正确识别合成语音中的文字或词汇的比率	字错率（WER）、句错率（SER）
有效频宽	--	信号包含的最低和最高频率成分之间的频率范围	20Hz到16kHz内有效频宽越高越好
发音准确性	多音字	汉字根据上下文会有不同的读音	分级标准5级： 1分 - 很差 2分 - 差 3分 - 一般 4分 - 良好 5分 - 优秀
ㅤ	中英混合、符号	文本中同时包含中文和英文单词/缩写/特殊符号	ㅤ
ㅤ	数字	看TTS系统是否能根据上下文准确地表述数字（包括阿拉伯数字、序数、小数、科学计数法、百分比等）	ㅤ
音质	清晰度	语音的可懂度，高清晰度的语音可以使听者轻松地理解言语的含义。	分级标准5级： 1分 - 很差 2分 - 差 3分 - 一般 4分 - 良好 5分 - 优秀
ㅤ	杂音、混音	任何不希望听到、与原始信号无关的背景声音，包括瞬态、稳态噪声或其他混音。	ㅤ
韵律	轻重音	通过增强特定音节的响度、时长或音高来实现的，使得这些音节在说话中显得更加突出。正确的重音和弱音模式对于单词的正确理解至关重要。	分级标准5级： 1分 - 很差 2分 - 差 3分 - 一般 4分 - 良好 5分 - 优秀
ㅤ	高低音	高低音指的是语音中的音调变化。音调的准确模仿对于语音合成的自然度和可理解度至关重要。	ㅤ
ㅤ	语速	说话的速度，包括每分钟单词的数量或者音节的数。合适的语速应当与说话者的意图以及语境相匹配。	ㅤ
ㅤ	停顿	在说话中的短暂停止，可以在词语、短语或句子之间发生。使其更易于理解，或者用于传达特定的语言或情感效果。	ㅤ
真人感	情感	根据语境和文本的含义，自然而合适地表现出欢乐、悲伤、愤怒、惊讶、安慰、后悔、同情等复杂情绪，让人感觉就像是一个真实的人在说话。	分级标准5级： 1分 - 很差 2分 - 差 3分 - 一般 4分 - 良好 5分 - 优秀
ㅤ	口语化	包括俚语、缩略词、连读、吞音和语音弱化，适当包含非文字的交流元素，例如叹息、笑声或其他语气词。目标是让TTS系统生成的语音听起来像是实际的人类对话，而不是书面读物的朗读或者机械的语音输出。	ㅤ
ㅤ	音色	音色是一个声音可以区别于其他声音（即使它们具有相同的音调和响度）的属性。在TTS系统中，音色关乎合成语音的愉悦程度以及它是否听起来像真实的人声。	ㅤ

3AI赋能TTS评测

大模型加持：高效、丰富的语料生成

多音字	请根据下面两个多音字和读音造句，拗：[ǎo]拗断；[ào]拗口；[niù]执拗。辟：[bì]复辟；[pì]另辟蹊径。	他不小心将篮球架上的篮网拗断了，这让他非常沮丧。他尝试着解释事情的经过......（省略）。
语速	帮我生成一些快速对话或节奏性文本。	快看！那边的天空突然变得一片火红.......（省略）。
情感	帮我生成一段包含激动情绪的文本。	天啊，你不会相信的！我刚刚接到了那个.......（省略）。
口语化	帮我生成一段非常口语化的文本。	得了得了，今天的工作简直是灾难。就那个什么紧急会议，磨磨唧唧开了整整三个小时.......（省略）。
…...	……	……

大模型加持：自动化测评

优缺点对比

评测类型	优点	缺点
传统人工标注	确保评测精度的黄金标准	1.耗时且效率低下：对于快速迭代和改进TTS系统极为不利 2.成本高昂：多人众测模式，人力成本高
TTS质检大模型	1.提高评测的效率和降低成本 2.减少人为评测中的主观偏差	需要大量的标注数据沉淀，训练

多任务学习大模型

指标聚合：内在相关性高的二级指标替换为一级指标。减少模型复杂度的同时，维持核心评价标准。

多任务学习大模型：L-MTL Models （ Large Multi-Task Learning Models ），Mixture of Experts（MMoE）框架 +Transformer特征提取，为多个相关的评价任务提供支持。

为TTS评价提供了一个高效、适应性强的解决方案，确保了在多个关键维度上的全面且均衡评价。

全面评价	通过多维度的任务同时进行，L-MTL模型确保了TTS系统的综合评估，从自然性到情感表达等多个层面。
细节捕捉	结合Transformer架构，L-MTL能够从音频信号中提取丰富的特征，准确捕捉语音的微妙变化。
智能任务分配	利用MMoE门控机制，模型能够动态确定最适合处理特定评价任务的专家网络，提高评价的准确度。
知识共享	不同评价任务间能够共享学习到的知识，提升模型整体的效率和泛化能力。
模型灵活性	L-MTL的模块化设计使得模型易于扩展和定制，适应不同的TTS评价需求和研究方向。

L-MTL Models 的基本架构

采用均方误差（MSE）作为损失函数，计算模型预测的打分与真实打分之间的差异。

各个单独任务损失的加权和，模型训练的目标是使其最小化。

L-MTL Models 业务价值

日评估合成语料10000+

单版本算法迭代，维持评测质量同时，评测时间缩短80%，人力节省70%

评测数据反哺 L-MTL 大模型

自动化监控线上质量

4招贤纳士

AI爆发，语音交互成为热点。支付宝诚邀语音算法评测达人加入，base深圳或杭州，有意者请联系18924668968 （手机号同微信）