password
URL
type
status
date
slug
summary
tags
category
icon
周起始
标签
是否汉化
评测方法主要有人工评测、自动化评测两大类。
1. 自动化评测
对于封闭式问题,也就是有标准答案的问题,比较适合使用脚本自动完成模型评测,这是一种客观评测方法。例如:通过大模型进行电商评论分析,分析电商评论是正向还是负向的。
大模型使用的Promp
将如下语料输入给大模型后,得出大模型的答案,并与标准的结果进行对比。

小技巧:让模型预测的输出是个json格式,方便提取结果。
获取Kimi大模型输出的代码:
得到大模型输出,并和语料中的lable进行合并,结果片段如下:
在这个场景中,基于输出的结果中的sentiment和label两个字段,可以通过计算准确率、召回率等指标评估大模型的能力。
由于大语言模型输出自由度较高,在评测阶段,我们需要对其输入和输出作一定的规范和设计,尽可能减少噪声输出在评测阶段的影响,才能对模型的能力有更加完整和客观的评价。
在客观评测的具体实践中,我们通常采用下列两种方式进行模型输出结果的评测:
- 判别式评测:该评测方式基于将问题与候选答案组合在一起,计算模型在所有组合上的困惑度(perplexity),并选择困惑度最小的答案作为模型的最终输出。例如,若模型在 问题? 答案1 上的困惑度为 0.1,在 问题? 答案2 上的困惑度为 0.2,最终我们会选择 答案1 作为模型的输出。
- 生成式评测:该评测方式主要用于生成类任务,如语言翻译、程序生成、逻辑分析题等。具体实践时,使用问题作为模型的原始输入,并留白答案区域待模型进行后续补全。我们通常还需要对其输出进行后处理,以保证输出满足数据集的要求。
2. 人工评测
针对开放式问题,通过制定规则进行人工打分是最靠谱的,这是一种主观评测方法。根据业务制定打分规则,根据规则进行人工打分。打分时,尽量屏蔽掉预测结果的来源,防止人为引入偏见。
评分标准制定:
以角色扮演大模型评估标准制定为例,评估的维度更看重人设遵循能力和回答质量。
- 人设遵循:言行是否符合角色设定的身份、特色和语气等。
- 场景符合:文风是否符合场景需求。
- 回答质量:回答是否与上下文对话相符,内容丰富、恰当。
计分方法有两类,打分方式有GSB打分和绝对分值:
- GSB(Good、Same、Bad)计分:用于评判针对同一评估集的两份预测结果之间的好坏。例如对比两个预测结果A和B,Good代表A比B好、Same代表两者质量相当,Bad代表A不如B。最后得到A和B的GSB打分比值。例如10:20:30,代表60条评估结果集中,有10条A比B好,20条A和B相当,30条A比B差。GSB适用于直接对比两个模型(或两组超参数)之间的好坏。
- 绝对分值:按照一定的评分标准直接对大模型进行结果评分。用于横向比较多个模型的效果。
3. 裁判员模型评测
A Survey on LLM-as-a-Judge
人工打分成本高昂,使用更强大的大模型对待评价大模型进行打分,即通过裁判员模型打分成为严重的一个重要课题。例如使用GPT-4作为裁判员评估其他模型的效果,从而降低人工打分成本。·
具体方法是:使用更强大的大模型作为裁判,对其他大模型的效果进行评分。例如使用GPT-4作为裁判,对Ernie speed和微调后的Ernie speed进行打分。裁判员模型的Prompt:
注意:为了确保评估结果有效性,自动打分结果也需要经过人工复查。
我们首先承认LLM评委可能存在的局限性:
- 位置偏见,LLM评委可能偏向比较中的第一个回答
- 冗长偏见,LLM评委可能偏向更长的回答,不考虑质量
- 自我增强偏见,LLM评委可能偏向自己的回答
- 有限的推理能力,指LLM评委在评判数学和推理问题时的可能缺陷
然后我们探索了如何通过少射判断、思路评判、基准评判和微调评判来缓解这些局限性。
在实施部分解决方案后,我们发现尽管存在局限性,强大的LLM评委如GPT-4可以与受控和众包的人类偏好实现非常好的一致性,达到80%以上的一致率。这一程度的一致性与两个不同人类评委之间的一致性相当。因此,如果谨慎使用,LLM评委可以作为人类偏好的一个可扩展和可解释的近似。
离开乏味的皮囊,自由的灵魂在路上
- Name: Alan Hsu
- Tag: 随感、技术、经验、旅行、推荐、生活、音乐、电影 etc.
- Email:xulanzhong521gmail.com
- Twitter:@AlanHsu521
- Telegram:@AlanHsu521
- WeChat: Alan_Hsu_521
- Github: https://github.com/xsoway/
- Blog: https://xmylog.com


- Author:Alan_Hsu
- URL:https://xmylog.com/article/articles_LLMTest_testMethod
- Copyright:All articles in this blog, except for special statements, adopt BY-NC-SA agreement. Please indicate the source!
Relate Posts