Created
Aug 14, 2024 01:49 PM
Favorite
Favorite
Priority
备注
推荐
🌟🌟🌟🌟
类型
模型学习
一直往北方开
读完需要
3分钟
速读仅需 1 分钟
先看一道的数学题,请问下一个数字是什么:
0,1,1,2,3,5,8, ?
这个题目很简单,考的就是斐波那契数列,后一个数字是前两个数字之和。下一个数字是 13。
在这个题目中,首先告诉了我们前 7 个数字,让我们自己去推理第8个数字是什么,那么前 7 个数字我们可以理解为是一种提示,我们需要发现前 7 个数字隐含的规律,推理第 8 个数字是什么。
当这个题目给大模型,对于大模型而言,前 7 个数字也同样是提示,需要他推理第 8 个数字。那么前 7 个数字,就是 7-shot,有7 个样本数据给到大模型,大模型基于这 7 个提示样本进行学习,自动推理第8个数字。
notion image
因此,我们可以将 n-shot 理解为,
我们在使用大模型时,在prompt中注入给大模型的 n 个提示样例数据,帮助大模型输出结果。
n 指的是样本的数量,根据 n 的个数不同,通常会有 0-shot、3-shot、5-shot,或者 few-shot(少量样本)的说法。比如这个示例就是0-shot:
notion image
关于 0-shot 、 few-shot 也会有一些常见问题。
1、shot 到底怎么翻译
shot 通常被翻译成“射击”,“注入”,体育比赛“进球”、“射门”等意思,one shot 也有“一次性”的意思。不过在 AI 领域,我看的文档中,还没有碰到对 shot 进行翻译的,通常都是直接使用 0-shot,5-shot,few-shot之类的进行描述。如果一定要翻译,个人认为翻译成“注入”会恰当一些。shot 就像是在使用阶段,先给大模型注入一些示例数据,让大模型学习你特定的规则。
2、shot 是训练阶段还是使用阶段?
大模型学会的其实是数学推理能力。并不需要你提前将 1+1=4 这个数据喂给大模型。
notion image
先说结论,不管是 0-shot 还是 few-shot,都是大模型使用过程中的一种 prompt 技巧。在 AI 领域,通常提到的训练(training),我们可以理解为意思相近,都是指代大模型前期的训练过程。在训练过程要使用大量的数据进行训练,得到通用的大模型。通用大模型会具备强大的泛化能力,对新的数据有很强的适应能力,大模型能够自己举一反三。
正是因为大模型的这种泛化能力,才使得在使用阶段,可以使用 prompt 来为大模型设定一些规则和场景。大模型在指定的规则下进行输出。比如这个例子:
notion image
大模型学会的其实是数学推理能力。并不需要你提前将 1+1=4 这个数据喂给大模型。
3、0-shot、few-shot 的典型使用场景:
在所有需要推理、模仿的场景中,我们都可以使用到 few-shot 的技巧,比如你想写一篇鲁迅风格的小说,那你可以先输入给 AI 一篇鲁迅的典型文章,让 AI 自己学习鲁迅的写作风格、经典用词。然后再给 AI 一个新的主题,让他自己输出新的文章。另外 0-shot、few-shot 也是对大模型进行评测时,最常用的手段。few-shot 专注于少量数据下,模型的准确率;而 0-shot 则更专注于无样本情况下,模型泛化能力的测评。想要更多理解,可以阅读AI大模型乱战到底哪家强,权威排行榜这家排第一!
本公众号将聚焦于
AI方面的学习和分享,AI写作、Midjourney图片生成、大模型等
欢迎关注
私人微信,有问必答,欢迎交流
notion image
Loading...