Created
Jul 29, 2024 10:57 AM
Favorite
Favorite
Priority
备注
推荐
🌟🌟🌟🌟🌟
类型
模型测试
作者
中信建投证券股份有限公司
尹序鑫 孙冰 马张晖 王赵鹏 刘国杨
作为企业与客户接触的重要途径,一线员工的服务质量直接影响企业经营收益和对外形象,而服务人员流动性大、培训成本高、客户服务效果难以把控等诸多问题已成为行业痛点。同时,信息技术的高速发展带来了迅速增长的业务量和客户量,呼叫中心的电话语音、文本以及其他各类渠道的信息汇成庞大的服务数据。
保障一线员工的服务水平和规范性,感知业务中的舆情和风险信息,以及提供发现具体业务问题的途径,都需要对庞大的服务数据进行质检分析。传统质检方式因其漏检风险大、难以发现潜在的业务机会与舆情风险,而被智能语言处理(NLP)技术所取代。通过NLP技术对客户服务交互记录进行深入分析,企业可实现对客户的深度感知与理解,规范业务流程、提升工作效率以及保障服务质量。
本文结合人工回访及企业微信两个质检场景,介绍中信建投证券股份有限公司(以下简称“中信建投证券”)基于NLP的智能质检应用实践。
一、证券业智能质检现状
智能质检是指通过智能化手段对客服人员与客户的会话(语音或文字)进行质量检查,检验会话过程中客服人员是否按照客服规范、标准话术及标准应答流程来与客户交流,以此来发现客服人员存在的问题,进而提高客户服务质量,最终提高客户满意度。当今,证券业智能质检方案大多结合深度学习、语音识别、NLP等技术,基本解决了传统质检方案中人工抽检带来的各种不足。然而,证券业务的快速发展带来了客服交互语料的指数级增长,企业对现有的智能质检方案也有了更高的要求,同时相应的技术应用也面临着更大的挑战。
以中信建投证券的质检场景为例,目前质检场景主要是呼叫中心人工回访、企业微信会话存档,有关场景说明如下。
场景1:呼叫中心人工回访
呼叫中心对客户的回访内容包括但不限于获取客户的反馈、对客户的问题作出解答并探询客户新的需求。客户回访是企业进行产品或服务满意度调查、客户意愿反馈以及进行客户维系的常用方法,而对客户回访内容的质检是评价公司服务水平和规范性、感知业务中的舆情和风险信息的重要手段,但长期面临着服务需求多元化、客户回访量大的两难问题。
场景2:企业微信存档
现阶段的企业微信已具备群自动回复、群发、直播、对外收款等近20种支持线上营销的实用性功能。在金融服务的应用中,营销人员可以借助这些功能完成引流获客、服务沟通、转化下单的营销闭环。因此,企业微信作为强留痕通信工具,被越来越多的金融企业用于内外部联络通信。对于强监管背景下的金融企业而言,企业微信具有两面性:一方面,应用企业微信可使企业对外触达保持统一性,也有利于掌握员工的工作沟通情况。另一方面,应用企业微信也增加了企业管理责任,企业在制定管理规定时须考虑员工个人行为的不确定性。对企业微信会话内容的质检,是每个金融企业都必须完成的工作。
目前,市面上有很多面向企业客服人员、销售人员的语音质检系统、文本质检系统,多数产品使用的是基于“关键词+正则表达式”机器质检系统,优点是部署容易、上手门槛低,但是企业在实际使用过程中发现,基于该方式的机器质检效果无法适应越来越多元化的业务情景,难以满足合规风控需求,其局限性主要表现在以下两个方面:
一是在客户沟通过程中,自然语言的表达方式高度个性化、表达形式复杂多变。若仅依赖“关键词+正则表达式”的机器质检系统进行穷举,语料枚举存在错漏,识别局限性明显。例如,在针对“提供投顾服务”的质检中,销售人员未按照规定向投资者进行询问便提供了投资建议,甚至向低风险偏好者推荐了高风险产品,向普通投资者推荐了专业投资者方能投资的产品。这种隐瞒风险、夸大收益甚至承诺保本的违规表述,仅依赖穷举是无法识别的。
二是金融产品营销的业务流程与逻辑较为复杂,对销售人员的要求往往是多元化、精细化的。依赖“关键词+正则表达式”的质检方案,在对包含复杂场景和精细化要求的质检项进行监督就显得捉襟见肘。例如,在对“信托产品营销”的质检项中,需要先筛选出涉及产品营销的会话,再监督销售人员是否明确“普通投资者是否具备投资该产品的风险承受能力”以及是否明确告知产品风险,传统机器质检很难处理这种需要对业务流程规范进行监督的情况。
因此,目前基于“关键词+正则表达式”机器质检系统的主要痛点是局限性高、容错率低,难以规避的漏检、误检会使质检效率大打折扣,质检模型的局限性让企业难以应对逐渐多元化、精细化的营销情景。为了破解上述两大问题,证券行业急需开发一种基于前沿技术的合规质检产品,以提升质检的效果和效率。
二、算法方案设计
在NLP任务中,一个好的预训练模型能够提升模型的效果。BERT是一个相对复杂的模型,例如,BERT-large总共有3.4亿个参数,这会耗费大量的计算资源,同时模型预训练以及推理预测速度都受到限制。
为了解决上述问题,ALBERT模型应运而生,该模型的参数量远少于传统的BERT架构。本文使用ALBERT模型代替BERT作为预训练语言模型,通过ALBERT获取句子中每个词的向量表示,这些向量表征了每个词在整个句子中的深层语义信息,同时,在下游任务上,连接一个TextCNN模型,即采用“ALBERT+TextCNN”的模型架构。
1.数据格式
例如,在金融场景中,原始文本为“×××这只LOF可以通过场内方式在交易软件里以1.2元每份的价格购买,放心涨不到3元我补给你。”此条文本,既属于提供投顾服务,将命中“提供投顾服务”这个一级标签,同时也提示了买卖点,将命中“提示买卖点”这个专属二级不合规标签。因为LOF是公募基金,所以也命中“推荐公募基金”这个一级标签,同时因为承诺收益,也被不合规二级标签“承诺收益”命中。因此,该原始文本涉及的标签为“提供投顾服务/提示买卖点/推荐公募基金/承诺收益”。采用one-hot的形式表示标签,即“label:0 1 0 1…1 0 0 1 0…”,命中的标签对应位置是1,其余是0。
2.模型框架
本文模型的基本框架如图1所示。采用ALBERT_small_zh作为预训练语言模型,其中包含4个隐藏层,12头注意力机制,总计4M的参数量。
notion image
图1 本文模型的基本框架
首先,获取原始金融文本数据,例如:
X=[x1,x2,...,xn]
其中,xi表示一个句子中的第i个字符。在作为输入文本数据送入ALBERT模型时,是以批量形式构造的。
经过ALBERT预训练模型编码处理后的第i个文本中共有n个词,则在TextCNN输入层中的初始输入E可以表示为:
E=[E1,E2,...,En]
通过上面操作,一个句子就构造成了一个二维数据,输入到TextCNN模型中,在卷积层中,利用卷积核进行卷积操作,进而提取窗口内文本的局部信息。在本文的TextCNN中,考虑到中文词语长度的多样性,所以选择了更加丰富的卷积核大小(2、3、4、5、6、7),由此对应了6层卷积和池化层操作。
Ti=f(W×Ei+b)
其中,W为权值矩阵,b为偏置项,f为激活函数。在最大池化层中可以得到全局特征向量:
T=MAX{Ti}
之后再经过一个Dropout层,为的是降低过拟合风险,使得模型更快的收敛。最后,通过全连接层计算模型输出的分数。
y=sigmoid(T)
使用sigmoid激活函数做归一化,将模型输出的分数转化成概率值,即得到每条文本对每个标签的预测概率。
另外,在模型训练过程中,要不断更新模型的参数,本文模型训练主要涉及的参数包括ALBERT和TextCNN中的参数。利用交叉熵损失函数,采用梯度下降法等优化方法进行误差的反向传播,不断训练模型参数,直到模型收敛。
notion image
其中,p(xi)表示该条文本真实标签的概率分布,q(xi)表示预测标签的概率分布。
3.模型评估
每条金融文本具有一个或多个标签,每条文本所属的多个标签预测属于典型的多标签文本分类任务,可采用准确率(Precision,P)、召回率(Recall,R)、F1值(F1-score,F1)三项评价指标衡量模型性能。准确率表示在预测为正的样本中,被正确预测所占样本比例,该指标体现了模型的查准率。召回率表示在预测正确的样本中,正样本所占样本比例,该指标可以体现模型的查全率。F1值则是由准确率和召回率的加权调和平均计算得来,是对准确率和召回率的综合考察。
notion image
其中,TP表示将正样本预测为正,FP表示将负样本预测为正,FN表示将正样本预测为负。
三、实验结果分析
和应用效果展示
1.实验数据和环境
本文实验采用的标签文本数据集共110万条左右,标签类型一共有40个,每一条数据样本已被人工标注为一个或者多个类别标签,即是一个典型的多标签文本分类任务。按照8:1:1的比例切分为训练集、验证集和测试集。数据包括金融场景文本描述和每条文本对应的多个标签,数据具体形式如图2所示。
notion image
图2 金融场景文本数据形式示意
整个实验基于中信建投证券容器云平台GPU资源,由于采用的ALBERT是一种压缩的BERT变种,在参数量大大减少的同时,极大提升了模型训练的效率并节省了计算资源。该实验使用单机四卡的V100服务器,近10万的训练数据,迭代了20轮,整个过程用时只需要1小时。
2.对比实验设置及实验结果分析
为评估本文的“ALBERT+TextCNN”模型在金融场景下多标签文本分类任务的预测效果,本文设计TextCNN、TextRNN、ALBERT三个模型作为对比实验。在上述数据集上验证各个模型的分类准确率、召回率和F1值。
每组对比实验的参数设置详情如下。
(1)TextCNN:采用传统词向量表示方法提取文本特征,引入TextCNN模型作为文本分类器,参数设定与本文TextCNN模块保持一致。
(2)TextRNN:采用传统词向量表示方法提取文本特征,采用上文提到的TextRNN模型作为文本分类器,参数设定与TextRNN原文保持一致。
(3)ALBERT:采用ALBERT预训练语言模型提取词向量,将多标签分类问题转换为多个二分类问题,参数设定与本文ALBERT模块保持一致。
由于本文聚焦多标签分类问题,涉及很多标签类型,为了方便评估模型,这里只展示“引导打新股/债”标签的实验结果。该对比实验取10000条文本作为测试数据,统计得到本文模型和对比模型的准确率、召回率以及F1值评价指标,实验结果见表1。
表1 实验结果对比
notion image
根据表1中的实验结果,可以看出“ALBERT+TextCNN”模型的Precision、Recall、F1-score三项评价指标都明显优于前文所述的对比模型的结果,比原始的ALBERT预训练语言模型在F1-score上提升了2.4%,同时对比采用静态词向量的经典基准模型TextCNN和TextRNN,在F1-score等评价指标上有更为显著的提升。
3.应用效果展示
本文提出的智能质检模型已应用于前文提及的呼叫中心人工回访和企业微信会话存档两个场景中。
在呼叫中心人工回访场景中,客服人员拨打客户电话后,呼叫中心记录下回访过程中的语音信息。智能质检系统利用ASR语音转文本通用接口将语音信息转化为文本,再通过基于深度模型的纠错算法FASPell对文本中可能存在的错漏进行纠正,最后通过基于所提模型对获取的文本信息进行话术规范、舆情风险的判定与感知。如图3所示,模型给第三个话术标记出“询问开户方式”和“再次确认是否网上开户方式”两个标签,充分展示了质检模型多标签文本分类的预测能力。基于此标签结果,推送给相应的合规审核人员进行复核,通过这种人机协同的质检方式,极大地提高了合规审核人员的效率。同时,质检结果会对模型进行实时正向优化,模型效果会更加准确。
notion image
图3 呼叫中心人工回访场景中的应用效果展示
在企业微信会话存档场景中,金融服务者使用企业微信与客户沟通的语音、文本信息会被记录下来。智能质检系统进一步对获取的服务文本打标签,并进行话术质检。如图4所示,质检模型将客户经理的话术识别为“引导打新股/债”标签。通过这种方式,借助基于NLP技术的智能质检系统对这些信息进行全局统计和深入解读,对于深入了解客户、提升客服质量、及时发现违规行为具有重大的意义。
notion image
图4 企业微信场景中的应用效果展示
本文实验验证了“ALBERT+TextCNN”模型的有效性,该模型能够很好地利用ALBERT对文本强大的表示学习能力,再通过TextCNN的卷积核进一步提取文本的语义信息,同时辅助以金融场景下多标签之间的先验知识,可以有效地应用在金融场景中文本打标签的任务中。
为了提升语料质检效率,提升识别准确率,需要借助机器学习——监督式学习,通过语料训练识别不合规的场景。基于此,中信建投证券智能客服团队提出了一种多标签竞合机制,通过标签分发机制协调各个标签之间的关系,再结合说话人、对话对象资格、权限、适当性等进行合规判断。通过对模型算法进行不断优化训练,“ALBERT+TextCNN”模型标签命中平均准确率已提高到92%,漏检、误检的数量也进一步减少,有效提高了人工回访和企业微信会话场景数据合规审核人员的质检工作效率。
本文刊于《中国金融电脑》2023年第7期
notion image
《中国金融电脑》2023年第7期
征订热线:https://shop160045533.taobao.com
25
欢迎订阅
特别提示
《中国金融电脑》杂志不收取作者版面费用,不会以所谓的“本刊代理/编辑部”或“发表定金”“手续费”等名义收取费用。购刊收款账户为对公账户,请勿对任何个人账户汇款。另,本刊开具发票不收取任何额外费用。如有异常,请作者立即与本刊编辑部查证核实,以免给自身造成风险或损失。
本刊编辑部联系方式:
010-51915111-816
投稿邮箱:
fcc@fcc.com.cn
市场合作:
010-51915111-813
010-51915111-812
Loading...