password
URL
type
status
date
slug
summary
tags
category
icon
周起始
标签
是否汉化
📌

模型评测第一步也是使用模型进行推理,推理时Prompt质量影响模型的输出。因此在模型评测的时候,也非常重视Prompt的质量。
大量的实验表明,即便测试的原始题目相同,对于 prompt 的不同构造方式会对模型的表现产生影响。可能影响的因素包括:
  • Prompt 本身的构成方式,包括指令、in-context example、题目的写法;
  • in-context example 的选择,包括了选择的数量和方式;
  • 对 prompt 的使用方式。是让模型基于 prompt 进行补全,还是从候选的 prompt 中选择一个最好的作为答案?
通常使用两种Prompt策略:Few-short Prompt和COT Prompt。
notion image
通常,我们会在 prompt 开头放入指令,几个 in-context example(上下文样例),再在最后放入题目。例如:
 
 
 
 
 
 
 
🎒
离开乏味的皮囊,自由的灵魂在路上
  • Name: Alan Hsu
  • Tag: 随感、技术、经验、旅行、推荐、生活、音乐、电影 etc.
  • Email:xulanzhong521gmail.com
  • WeChat: Alan_Hsu_521
notion image
notion image
 
 
 
大模型评测指标评测任务&评测集
Loading...
Alan_Hsu
Alan_Hsu
许心志我在 蓝湛阔天海 中定自主宰
统计
文章数:
197
Latest posts
AI应用评测工具
2025-4-2
OpenCompass评测框架
2025-4-2
评测方法
2025-4-2
大模型评测指标
2025-4-2
评测Prompt
2025-4-2
评测任务&评测集
2025-4-2