谷歌最新 | Prompt的Few-shot究竟写几个例子，输出效果最好？全网最全

Created

Aug 14, 2024 01:49 PM

Favorite

Priority

URL

https://mp.weixin.qq.com/s/tlvbrL7FmffDRuLeEP0SAQ

备注

推荐

🌟🌟🌟🌟

类型

Prompt

本文：4500字阅读12分钟

大家很熟悉：从大语言模型获得更好输出的最佳方法之一是在提示中包含示例。这种方法称为 shot prompting。通过在提示中提供示例，您可以准确地向模型展示您在输出结构、语气和风格方面所希望的内容。Shot这个词很多翻译软件翻译成为射击、镜头，其实它还有概率、可能性的意思，在LLM语境下理解成为示例、样本是恰当的。

结合谷歌最新的（4月17日）这篇文章《Many-Shot In-Context Learning 》（2404.11018）以及另外三篇相关论文，我将为大家介绍shot的不同使用方法、何时使用它、以及一些使用时的细节、和偏差。

图片来自DALL.E

三种Shot prompting方式

这种prompting方式主要有三种Zero-shot、Few-shot、Many-shot，这三种方式中的每一种都有多篇顶级论文作为学术支撑，尤其是上一篇文章中告别手写Prompt怕DSPy学不会？10行代码捏一个Agent，用DSPy Optimizers帮你优化PromptDSPy也用到了BootstrapFewShot作为一种优化方法，所以了解一下Shot很重要。

简单来说，Zero-shot大家都在用，比如Step by step，Take a deep breath之类，这其中又细分为很多类别，什么CoT核心、情感刺激、贿赂小费之类，每一种模型的敏感度也都不一样，但总体的共同点都是不需要具体的示例也能够提升模型的输出性能。

大家有兴趣可以扒一下Zero-shot的这些论文，有具体的数据支撑和论证实验，能发出来毕竟也要受到一些严格审查。告诉你一个技巧，你从ArXiv上找一篇本主题的最新论文（当然ICLR上发过的更有营养价值），找个时间，来一杯咖啡，从这篇论文的Reference上仔细研究，你就可以串起来很多本主题的相关研究（作者总要引述别人已经发表的观点来佐证自己每个字的出处，大致是这个意思），得到一些个究竟的知识。这些知识，比你从公众号等自媒体上来得要更节省时间和精力，当然也包括我的公众号和我的赞赏群。

Many-shot是一个主要用于提高模型性能的一个方式，和我们普通人写Prompt用于网页和大语言模型交互关系不大，论文里的多样本In-Context学习(Many-Shot In-Context Learning)主要是一种提升大型语言模型性能的技术手段,而不是普通用户与网页或对话式AI系统交互时使用的Prompt技术。

多样本In-Context学习是一种面向研究人员和开发人员的技术，它的核心思想是在推理阶段向语言模型提供大量相关的示例数据,使其能够更好地理解和学习所需完成的任务。这一技术主要应用于复杂的特定任务领域,如机器翻译、文本摘要、数学推理、规划等,旨在充分发挥大型语言模型的泛化能力。

与之相比,普通用户在与网页或对话式AI系统交互时,更多地使用少样本(Few-Shot)或零样本(Zero-Shot)Prompt。这些Prompt往往更加简洁、直接,目的是指导AI系统产生恰当的回应。用户无需提供大量示例,而是依赖AI系统在训练过程中已经学习到的知识。

无法破除的逆转诅咒

在介绍Few-shot之前，有一些概念我需要对我的公众号（AI修猫Prompt）读者厘清。那就是，你需要理解，我们现阶段的大语言模型语境下提到的learning和我们人类的learning是不一样的，或者说大语言模型目前很难突破逆转诅咒，情境学习根本不是学习。还是你熟悉的ICLR024重磅 | 逆转诅咒，LLMs接受"A是B"的训练却无法学习"B是A"（The Reversal Curse: LLMs trained on "A is B" fail to learn "B is A"（2309.12288），用这篇文章中的例子Few-shot一下，关于现实世界名人的问题，例如“谁是汤姆克鲁斯的母亲？”[答：玛丽李菲佛]”和反向“谁是玛丽李菲佛的儿子？“. GPT-4在79%的时间内正确回答了前一个问题，而后者只有33%。

这种泛化失败揭示了自回归LLMs的学习能力的显著局限性。尽管模型可以处理“A是B”的场景，但在没有对这种模式进行明确训练的情况下，它很难推断出相反的关系。人类可以利用创造力和推理来处理新的情况，但当面对与训练数据严重偏离的场景或问题时，LLMs可能会动摇。他们的反应受到他们所受训练的程度和多样性的限制，他们无法超越它。而人类反思自己的错误并从中学习，和LLM的学习不是一个意思。

究竟什么是Few-shot，这种方法建立在 LLM 从少量示例中学习和概括信息的能力之上。当您没有足够的数据来微调模型时，这使得它特别有用。

以下是一个可用于coze、质谱、Dify上的Few-shot示例，可以用于workflow，假如

通过以前简要介绍和根据此介绍生成的内容，模型将了解特定客户的语气和风格。我将示例封装在分隔符（三个引号）中，以设置提示的格式，并帮助模型更好地理解提示的哪一部分是示例与指令。这个提示虽然很简单，但适用于任何智能体，你需要做的就是拷走更新和设置变量。

为什么要用Few-shot Prompting

资源效率：Few-shot提示只需要几个示例数据

节省时间：它加快了模型适应新任务的能力，这意味着 AI 驱动的功能和产品的部署时间更快，上市时间更快。

降低成本：与收集和标记数据以微调模型所花费的时间相比，小样本提示要便宜得多，尤其是对于较小的团队而言。

小改变大收获：设置和测试少量样本提示相对容易，可以帮助您获得更好的输出。

你应该掌握的Few-shot细节：

1、我的prompt应该包括多少个示例？

添加更多示例并不一定能提高准确性;在某些情况下，添加更多示例实际上会降低准确性。多篇研究论文指出，在两个例子之后，先是大获全胜，然后是停滞不前。在 2 个示例之后，你只是在燃烧Token而已。

来源：语言模型是少数学习者《Language Models are Few-Shot Learners 》

2、示例的顺序重要吗？

是的，示例的顺序很重要。它对输出质量的影响程度取决于您使用的模型。这篇名为Calibrate Before Use：Improving Few-Shot Performance of Language Models的论文通过改变GPT-3提示中相同示例的顺序来证明这一点。我认为可以肯定的是，“更智能”的模型应该受到顺序的影响较小。不仅如此，小的改动对模型输出的改变都是巨大的应该自动生成 Prompt 还是手写？提示措辞中微不足道的变化对生成内容有重大影响

研究人员发现，该模型的预测根据示例顺序而有很大差异。在某些情况下，正确的示例排列导致了近乎最先进的性能，而另一些则下降到几乎是偶然的水平。下图显示了更多详细信息。