如何正确约束输出格式，Deepmind最新：让LLM精准生成任何格式的文本，COLM2024

Created

Aug 14, 2024 01:50 PM

Favorite

Priority

URL

https://mp.weixin.qq.com/s/C49FM6HqxHyl9gUZx8VgYA

备注

推荐

🌟🌟🌟

类型

模型学习

点击上方蓝字关注我

本文：4800字阅读 12分钟当我们要求模型生成JSON、API调用或代码片段时，它们往往会出现语法错误，导致下游解析失败。随着多模态LLM的广泛应用以及多个LLMs协作，如何在保持其强大能力的同时，让其输出符合特定格式要求，成为越来越棘手的问题。最前沿的一些研究发现了一个令人兴奋的方向：通过精心设计的智能格式约束方法，我们不仅可以确保输出的结构化，还能进一步增强LLM的性能。

传统方法的局限

过去，我们通常采用两种方法来提高LLM生成特定格式文本的能力：1. 对模型进行微调，使其更好地遵循特定的语法规则。2. 在解码阶段应用约束，限制模型只能生成有效的输出。然而，这两种方法都存在明显的缺陷。微调需要大量的计算资源，而且对于不常见或特定任务的格式来说，往往不太实际。而在解码阶段应用约束则面临着一个棘手的问题：模型的分词方式与形式语法之间存在错位。分词：LLM的阿喀琉斯之踵为什么分词会成为一个如此棘手的问题?让我们通过一个例子来说明：

假设我们有一个API调用：`foo(x="bar")`。通常，这个调用会被词法分析器解析为以下标记：foo ( x = "bar" )但是，LLM可能会将其分词为：foo( x=" ba r ")这种分词方式将一些词法标记合并在了一起(如`foo(`)，同时又将其他标记分割开来(如`"ba r"`)，完全打乱了原有的语法结构。我们可能会想，为什么不强制LLM的分词方式与形式语法保持一致呢？问题是，这样做会严重影响模型的生成质量。另一方面，如果我们允许像`x="`这样的标记，就意味着我们需要在一个步骤中同时识别变量名、运算符和字符串字面量的开始，这会导致特殊情况的激增，使得约束系统变得异常复杂。主要格式约束方法在应用阶段，我们在实际应用中的格式约束方法主要包括：

硬性解码限制（如JSON-mode）

格式指令提示（Format-Restricting Instructions, FRI）

后处理转换（如NL-to-Format）

这些方法各有优缺点。硬性限制虽然能确保输出格式，但往往会显著降低模型的推理能力。格式指令提示较为灵活，但效果不稳定。后处理转换保留了模型的原有能力，但可能引入额外的错误。

自动机理论：解决之道

面对这个看似无解的困境，自动机理论为我们提供了一个优雅的解决方案。研究者提出的方法主要包含以下几个创新点：

1. 将去分词(detokenization)过程重新定义为转导(transduction)。

2. 利用这种联系和自动机操作来解决分词问题。

3. 定义了一些扩展，以解决实际应用中的效率和便利性问题。

这种方法的核心在于，它将整个问题重新定义为自动机的操作，从而能够利用现有的、经过高度优化的算法来解决这个复杂的问题。有限状态自动机(FSA)：基础构建块在深入探讨解决方案之前，我们需要先了解一些基本概念。有限状态自动机(FSA)是一种数学模型，用于描述一个系统的状态转换。它由以下几个部分组成：

输入符号集Σ

有限状态集Q

初始状态I∈Q

终止状态集F⊆Q

转移关系E⊆Q×Σε×Q，其中Σε=Σ∪{ε}

FSA可以用来表示和识别正则语言，这是一类非常广泛且实用的形式语言。例如，UNIX的grep命令就是通过将正则表达式编译成FSA来实现文本匹配的。

有限状态转换器(FST)：FSA的升级版

有限状态转换器(FST)是FSA的一个扩展，它不仅可以识别输入，还能生成输出。FST的定义与FSA类似，但它的每个转移除了输入符号，还有一个输出符号。FST的强大之处在于，它们可以进行组合操作。给定两个FST T1和T2，我们可以将它们组合成一个新的FST T'=T2∘T1，其中T'的输入是T1的输入，输出是T2的输出。同样，FST也可以与FSA组合，得到一个新的FSA。

去分词即转导：突破性洞察

本文的第一个重要贡献是将去分词过程重新定义为一个FST。具体来说，给定一个词汇表V，我们可以构建一个FST TV，它将token序列转换为相应的字符序列。这个洞察为我们提供了一种优雅的方法来解决分词和形式语法之间的不一致问题。通过将字符级别的FSA与去分词FST进行组合，我们可以得到一个token级别的FSA，它本质上接受与原FSA相同的语言，但以token的形式表示。

约束LLM生成正则语言的方法

有了这些基础，我们现在可以描述如何约束LLM生成符合正则语言的输出：1. 构建去分词FST TV。2. 将正则表达式R转换为字符接受FSA AR。3. 将AR和TV组合，得到token接受FSA AR∘V。4. 在解码过程中，使用AR∘V来限制每一步可能的token选择。这个方法的优雅之处在于，它清晰地分离了两个关注点：- TV是特定于词汇表的，可以预先为每个LLM计算。- AR是与词汇表无关的，易于指定，并且可以在不同的LLM之间移植。

为了进一步提高系统的实用性，本文还提出了一些正则表达式扩展：

1. 通配符匹配：解决了"通配符"匹配(如/./ 或/[^0-9]/)在组合后可能导致状态数量爆炸的问题。2. 语法糖：提供了一些简洁的表达方式，如/(?P<SUBSTRING_OF>abc)/用于匹配"abc"的任意子串。这些扩展大大提高了系统在复杂应用(如JSON约束)中的效率和可用性。

上下文无关语言的支持

除了正则语言，本文还探讨了如何将这种方法扩展到上下文无关语言。这是通过引入下推自动机(PDA)来实现的。PDA可以看作是带有堆栈的FSA，能够表示更复杂的语言结构。

与FSA类似，我们可以将PDA与去分词FST进行组合，得到一个token级别的PDA。这使得我们能够使用几乎相同的算法来约束LLM生成符合上下文无关语法的输出。

实际应用案例

这种方法的实际应用非常广泛，以下是几个具体的例子：1. JSON生成：可以根据JSON schema自动生成正则表达式，约束LLM生成符合特定结构的JSON数据。2. Python数据类：可以反射Python数据类的结构，自动构建匹配构造函数调用的正则表达式。3. 推测性解码：通过约束近似模型的输出，提高推测性解码的接受率，从而加速LLM的推理过程。性能对比与现有的约束系统相比，本文提出的方法在速度上有显著优势：

约束编译速度提高了约7，000倍。

每步解码的开销减少了6.5到33.6倍。这种性能提升不仅仅是量的变化，更是质的飞跃。它降低了应用约束的门槛，使得即时编译和应用约束成为可能，从而开启了全新的使用模式。在正确性方面，本文的方法同样表现出色。在GPQA数据集上的实验显示，未经约束的Gemma模型在遵循输出模式方面存在问题，而应用约束后，模型能够完美地遵循要求的格式。

和本研究有关的发现

在别的研究中，我发现了格式约束具有以下一些令人深思的结果：

推理能力的下降：在需要复杂推理的任务中，格式约束往往会导致模型性能显著下降。例如，在GSM8K数学问题上，JSON-mode的表现普遍低于其他方法。

约束程度与性能的关系：一般来说，约束越严格，对推理任务的性能影响越大。JSON-mode通常表现最差，而NL-to-Format方法能较好地保持模型的原有能力。

分类任务的反常现象：有趣的是，在某些分类任务中，格式约束反而提高了模型的准确性。例如，在DDXPlus医疗诊断数据集上，Gemini 1.5 Flash在启用JSON-mode后性能显著提升。

模型间的差异：不同模型对格式约束的敏感度不同。例如，在Last Letter任务中，GPT-3.5 Turbo在JSON-mode下性能大幅下降，而其他模型的影响较小。

格式种类的影响：JSON、XML和YAML等不同格式对模型性能的影响也不尽相同，这种差异在不同模型和任务间存在变化。深入分析：性能下降的原因

以下是一些导致性能下降可能的原因：

方案顺序的重要性：在JSON-mode中，如果"answer"键位于"reason"键之前，可能会导致模型直接给出答案而跳过推理过程。

解析错误并非主因：最初假设性能差异可能源于解析错误，但数据显示主流模型在结构化输出中的解析错误率极低。这表明性能下降主要是由格式约束影响了模型的推理过程。

约束松紧度的影响：当放松格式约束(如仅要求JSON格式而不指定具体schema)时，模型性能普遍提升，且跨提示的标准差降低。

修正策略的效果：对于解析错误率较高的情况，替换另一个LLM(如Claude-3-Haiku)进行后处理可以有效提高输出质量。

基于以上研究结果，我建议：

任务导向的格式选择：对于复杂的推理任务，考虑使用较为宽松的格式约束，如NL-to-Format方法。对于简单的分类任务，严格的格式约束可能反而有益。

权衡格式与性能：在追求输出格式一致性的同时，需要警惕可能带来的性能损失。可以通过实验找到最佳平衡点。

模型特异性考虑：不同模型对格式约束的反应不同，选择模型时应考虑其在目标格式下的表现。

松弛的提示策略：考虑使用多阶段提示，推理阶段先让模型自由思考，整理阶段再引导其组织答案为所需格式。

后处理优化：对于某些模型和任务，可以考虑使用额外的LLM进行输出修正，提高格式遵从性。

本文提出的方法为解决LLM生成特定格式文本的问题提供了一个优雅而高效的解决方案。通过将去分词过程重新定义为转导，并利用自动机理论，研究者不仅解决了分词和形式语法之间的不一致问题，还实现了显著的性能提升。您还可以移步之前的文章。

谷歌最新研究：这样写你的Prompt结构化输出约束，驱散幻觉阴霾

欢迎你来群里讨论！

非常感谢大家对我的支持和认可。自2024年6月18日起再进入赞赏群，需赞赏两篇文章各200元（共400元），我特意开了新群。赞赏低于400元仅视为对作者的喜欢。

您赞赏完毕后我将赠与您以下这些文件并拉您进群，以表示对您赞赏的感谢：

1、自4月11日至8月5日70多篇文章文末提及的附件110多份，包括：

A：语气关键字提取Prompt、自我发现Promt、预测prompt、Tom谈判、GPT记忆、参与式Prompt、弦外音、Medprompt、语义嵌入向量提示词、类比提示、检索增强RAT、TextGrad、UNIPrompt、贝叶斯优化等优质提示词、优化过的CoT prompt框架、Auto EvolInstruct优化Prompt、变分推理内容生成的prompt、递归内省的系统级SYSTEM PROMPT、Q-Star XML prompt、因果推理链Prompt、知识图谱因果推理prompt等

B、微调、SAMMO优化、DSPy运行环境部署等Dockerfile文件

C、能运行的代码包括：本地模型运行DSPy写的Agent、DSPy意图识别代码、DSPy与Langchain优化Prompt 、prompt-SAW提示压缩、概率迭代优化Prompt代码

、SymbolCot的DSPy代码、提示词敏感性和一致性代码、GraphRAG转PDF成为数据集代码等

D、公众号文章介绍过的50多篇论文、资料尤其是谷歌提示、Prompt调查报告等重磅资料

2、和与您一样的共识者探讨本公众号有关的文章、技术，共同进步

3、就文章涉及的问题向本人咨询

4、后续文章提及的提示词、代码、资料等文件

赞赏完成后，请添加我的微信xiumaoprompt拉您入群。本群有效期为永久，除非特殊情况下的解散。