password
URL
type
status
date
slug
summary
tags
category
icon
周起始
标签
是否汉化
📌

✍🏻
意图识别查询的测试方案旨在确保自然语言处理系统能够准确识别用户的意图。以下是一个全面的测试方案,可以帮助验证意图识别的准确性和可靠性:

测试方案

测试准备

数据收集

• 收集包含多种意图的用户查询样本。
• 样本应涵盖不同的领域、语言风格和复杂度。
• 数据可以从现有的用户交互记录、公开的对话数据集或通过众包平台收集。

数据标注

• 对收集的数据进行标注,每条查询都要明确标注出对应的意图。
• 确保标注的一致性和准确性,可以通过多名标注者交叉验证。

测试设计

覆盖率测试

• 确定意图类别的完整性,确保所有预期的意图类别都有相应的查询样本。
• 设计测试用例,覆盖每个意图类别,包括常见意图和边界意图。

边界测试

• 针对容易混淆的意图设计测试用例,测试系统对相似意图的区分能力。
• 包括模糊查询和歧义查询。

噪音测试

• 在用户查询中加入拼写错误、语法错误、口语化表达和干扰词,测试系统的鲁棒性。
• 模拟真实用户输入中的常见问题。

性能测试

• 评估系统在不同负载条件下的响应时间和准确性。
• 测试系统在高并发查询时的表现。

测试执行

自动化测试

• 开发自动化测试脚本,利用标注好的测试数据集进行批量测试。
• 使用自动化工具比较预测结果和预期结果,生成测试报告。

人工测试

• 安排测试人员进行人工测试,特别是对边界意图和噪音查询进行人工验证。
• 收集测试人员的反馈,发现潜在的问题。

测试评估

准确率和召回率

• 计算意图识别的准确率(Precision)和召回率(Recall)。
• 准确率:正确识别的意图数量 / 系统识别的总数量
• 召回率:正确识别的意图数量 / 实际意图的总数量

F1分数

• 综合考虑准确率和召回率,计算F1分数。

错误分析

• 分析误识别的案例,找出系统的薄弱环节。
• 区分可接受的误差和不可接受的误差。

测试改进

模型优化

• 根据错误分析的结果,调整和优化模型。
• 重新训练模型,使用改进后的数据和方法。

持续集成

• 将意图识别的测试纳入持续集成和持续交付(CI/CD)流程,保证每次更新后都进行全面测试。
• 定期更新测试数据,反映最新的用户查询趋势和模式。

测试报告

结果汇总

• 汇总测试结果,包括准确率、召回率、F1分数和性能测试结果。
• 提供详细的错误分析和改进建议。

报告发布

• 向相关团队和决策者发布测试报告,讨论测试结果和改进计划。
• 根据测试结果,决定是否发布或进一步优化系统。

指标说明

准确率

准确率(Precision)主要衡量的是系统识别出的意图中,真正正确的比例。比如,如果系统识别出了 100 个意图,其中有 80 个是正确的,那么准确率就是 80 / 100 = 0.8 。准确率高,说明系统识别出的意图中错误的较少,其识别结果的准确性较高。

召回率

召回率(Recall)主要衡量的是系统能够正确识别出的实际存在的意图的比例。假设实际存在的意图有 120 个,而系统正确识别出了 90 个,那么召回率就是 90 / 120 = 0.75 。召回率高,说明系统能够较好地涵盖所有实际存在的意图,不容易遗漏。
这两个指标通常用于评估意图识别系统的性能,在不同的应用场景中,可能会对准确率和召回率有不同的侧重。有时需要较高的准确率以保证识别结果的准确性,有时则更需要高召回率以确保尽可能多地识别出实际的意图

示例

假设我们有以下数据:
系统识别出的意图数量为:A 个其中正确识别的意图数量为:B 个实际存在的意图数量为:C 个
准确率(Precision)的计算方法为:B / A
例如,系统识别出了 50 个意图,其中正确的有 40 个,那么准确率 = 40 / 50 = 0.8
召回率(Recall)的计算方法为:B / C
比如,实际存在的意图有 60 个,系统正确识别出 40 个,那么召回率 = 40 / 60 ≈ 0.67
总结来说,要计算准确率,就用正确识别的意图数量除以系统识别的总数量;要计算召回率,就用正确识别的意图数量除以实际意图的总数量

F1分数

F1 分数(F1-Score)是一个用于评估分类模型性能的指标,它同时兼顾了准确率(Precision)和召回率(Recall)。F1 分数可以看作是准确率和召回率的一种加权平均,其最大值是1,最小值是0,值越大意味着模型越好。
F1 分数的计算公式为:F1 = 2 * (准确率 * 召回率) / (准确率 + 召回率)
通过综合考虑准确率和召回率,F1 分数能够更全面地评估模型的性能,尤其是在数据类别不平衡的情况下,它可以避免仅依赖准确率或召回率所带来的偏差。
例如,已知准确率为0.8,召回率为0.7,则 F1 分数为:
notion image
除了 F1 分数之外,还有一些其他的 Fβ分数也会被使用。Fβ分数是 F1 分数的更通用形式,其中β是一个权重系数,可由用户设置。例如,在 F2 分数中,召回率的权重高于准确率;而在 F0.5分数中,准确率的权重高于召回率。
在多标签分类任务中,还存在Macro-F1(宏观 F1 分数)和 Micro-F1(微观 F1 分数)的概念。Macro-F1 是计算出每一个类的准确率和召回率后计算 F1,最后将这些 F1 进行平均。Micro-F1 则是先计算出所有类别总的准确率和召回率,然后再计算 F1。

推荐系统评测指标—准确率(Precision)、召回率(Recall)、F值(F-Measure)

1、准确率与召回率(Precision & Recall)
准确率和召回率是广泛用于信息检索和统计学分类领域的两个度量值,用来评价结果的质量。其中精度是检索出相关文档数与检索出的文档总数的比率,衡量的是检索系统的查准率;召回率是指检索出的相关文档数和文档库中所有的相关文档数的比率,衡量的是检索系统的查全率。
一般来说,Precision就是检索出来的条目(比如:文档、网页等)有多少是准确的,Recall就是所有准确的条目有多少被检索出来了。
正确率、召回率和 F 值是在鱼龙混杂的环境中,选出目标的重要评价指标。不妨看看这些指标的定义先:
1. 正确率 = 提取出的正确信息条数 / 提取出的信息条数
2. 召回率 = 提取出的正确信息条数 / 样本中的信息条数
两者取值在0和1之间,数值越接近1,查准率或查全率就越高。
3. F值 = 正确率 * 召回率 * 2 / (正确率 + 召回率) (F 值即为正确率和召回率的调和平均值)
不妨举这样一个例子:某池塘有1400条鲤鱼,300只虾,300只鳖。现在以捕鲤鱼为目的。撒一大网,逮着了700条鲤鱼,200只虾,100只鳖。那么,这些指标分别如下:
正确率 = 700 / (700 + 200 + 100) = 70%
召回率 = 700 / 1400 = 50%
F值 = 70% * 50% * 2 / (70% + 50%) = 58.3%
不妨看看如果把池子里的所有的鲤鱼、虾和鳖都一网打尽,这些指标又有何变化:
正确率 = 1400 / (1400 + 300 + 300) = 70%
召回率 = 1400 / 1400 = 100%
F值 = 70% * 100% * 2 / (70% + 100%) = 82.35%
由此可见,正确率是评估捕获的成果中目标成果所占得比例;召回率,顾名思义,就是从关注领域中,召回目标类别的比例;而F值,则是综合这二者指标的评估指标,用于综合反映整体的指标。
当然希望检索结果Precision越高越好,同时Recall也越高越好,但事实上这两者在某些情况下有矛盾的。比如极端情况下,我们只搜索出了一个结果,且是准确的,那么Precision就是100%,但是Recall就很低;而如果我们把所有结果都返回,那么比如Recall是100%,但是Precision就会很低。因此在不同的场合中需要自己判断希望Precision比较高或是Recall比较高。如果是做实验研究,可以绘制Precision-Recall曲线来帮助分析。
2、综合评价指标(F-Measure)
P和R指标有时候会出现的矛盾的情况,这样就需要综合考虑他们,最常见的方法就是F-Measure(又称为F-Score)。
F-Measure是Precision和Recall加权调和平均:
notion image
当参数α=1时,就是最常见的F1,也即
notion image
可知F1综合了P和R的结果,当F1较高时则能说明试验方法比较有效。
3、E值
E值表示查准率P和查全率R的加权平均值,当其中一个为0时,E值为1,其计算公式:
notion image
b越大,表示查准率的权重越大。
4、平均正确率(Average Precision, AP)
平均正确率表示不同查全率的点上的正确率的平均。
 

🎒
离开乏味的皮囊,自由的灵魂在路上
  • Name: Alan Hsu
  • Tag: 随感、技术、经验、旅行、推荐、生活、音乐、电影 etc.
  • Email:xulanzhong521gmail.com
  • WeChat: Alan_Hsu_521
notion image
notion image
 
 
 
Whiteboard&草图在线工具2024_半年总结_生活篇
Loading...