Created
Aug 8, 2024 07:03 AM
Favorite
Favorite
Priority
备注
推荐
类型
模型测试
notion image
不会用AI,提示词写得乱七八糟,今天用大家能懂的语言聊聊大模型能力优化的几种常见方式。
有时候觉得AI生成的内容词不达意,AI味道太重。
OpenAI官方提示工程里有一条优化建议——提供参考文本。
也就是常说的“喂数据
notion image
那么,如何给大模型喂数据,AI才能更懂你呢?
有人说现在可以直接上传长文本了,不同模型支持的文本长度各不相同。
比如有某个模型能处理1000万个token,另一个能处理200万个token。
还有人提到可以使用外部知识库检索增强生成(RAG)技术,或者通过微调(fine-tuning)来优化模型。
那么,长文本处理、RAG和微调这些技术究竟是做什么用的?
它们之间有什么区别?在不同场景下,我们应该如何选择适合的技术?

长文本提示

长文本提示,通常是指上传了一份长篇文章,或者PDF,WORD文件,让AI大模型总结。
长文本提示考验的是AI大模型的上下文理解能力,上下文token限制。
虽然现在某厂说支持1000万长文本了,谁又支持多少多少token了,但谁能真正实现无损长文本,不好说。
大家可以尝试上传一份超长文本,用多次连续对话来测试,接下来的对话可能会有些离题或不连贯。
当然,对于我们正常写写文案,润色文章,完全够用。
比如我们要模仿某位作家或者博主的写作风格,写出更加拟人化的语言,可以这样操作。
notion image

RAG检索增强

上文说到,即使各家大模型都说支持几百万长文本,但是,AI大模型在超短时间理解这么长的东西,快速回应,其实并不容易做到。
不说各大厂家究竟有没做到真正的无损长文本。但利用RAG检索增强的方式倒是可以优化长文本。
RAG检索增强生产不好理解,可以认为是一个知识库。
好比写论文的时候需要找参考资料,找案例,通常每家高校都有自家的论文库,论文库的内容是真实存在的,需要什么知识,什么案例,都可以直接在论文库里面找到合适的内容。
再举个案例,智能体平台扣子支持上传知识库的。
可以把常用的参考素材上传到素材库,需要的时候通过全文检索或语义检索的方式找到合适的素材,帮助文章添加色彩。
notion image
notion image

微调

我觉得微调应该才是大家常常说的喂数据,这个喂字比较贴切。
在微调过程中,是直接把数据真的喂给了大模型,就像吃饭一样,大模型会消化所喂的内容,吃饱后,还会长肉。
跟长文本不一样,用户上传的PDF,只能在一个对话里有效。
而微调,就好像在训练AI大模型,他学会了,知识和技能长到大模型的脑子里去。
至于学的怎么样,考清华北大还是进厂拧螺丝,就看喂进去的数据质量高不高。
对于普通人,微调通常用不到,一个常见的微调案例,有一位博主把自己所有的微信对话导出来,并且通过微调的方式让AI学习他的对话习惯和风格,就像做了一个数字分身。
有一说一,微调的成本是真的贵。
当然,这几种方法并不是非此即彼的,
这三种常见的提高大模型能力的方法都可以搭配来用,正如写文章要找素材,那就建个素材库呗,觉得素材库不实时,那就用长文本呗。
如果本文章能给你一点启发,感谢点个赞、在看、转发三连,如果想第一时间收到推送,请点上星标⭐关注公众号,回复“知识库”,获取伟豪的精选知识库知识。
notion image
扫描下方二维码,获取 AI 提示词资料和副业资料,加群交流。
notion image
伟豪学长的往期相关推荐:关于AI智能体:这8个智能体,好用到让你怀疑人生!
关于A写作&Prompt:
Loading...
Alan_Hsu
Alan_Hsu
许心志我在 蓝湛阔天海 中定自主宰
统计
文章数:
176
Latest posts
python中 self cls的区别
2025-1-11
2025_周报 #01
2025-1-5
2024_年终总结: [代码与咖啡]打工人的漂流记
2025-1-4
2024_半年总结_工作篇
2025-1-4
🎄✨ 圣诞特辑 | 美食简餐 🎁🍷
2025-1-3
基于大模型搭建本地私有化知识库的搭建与研究
2025-1-2