Created
Aug 9, 2024 10:22 PM
Favorite
Favorite
Priority
备注
推荐
类型
本指南通过使用我们的OpenAIAssistantAgentOpenAI助理API中的检索工具进行基准测试。我们对Llama 2论文进行了测试,并将生成质量与一个简单的RAG流水线进行了比较。

设置数据

这里我们加载Llama 2论文并对其进行分块。

定义评估模块

我们设置评估模块,包括数据集和评估器。

设置“黄金数据集”

这里我们加载一个“黄金”数据集。

选项1:获取现有数据集

注意:我们从Dropbox中获取数据集。有关如何生成数据集的详细信息,请参阅我们的DatasetGenerator模块。

选项2:生成新数据集

如果选择此选项,您可以选择从头开始生成一个新的数据集。这样可以让您调整我们的DatasetGenerator设置,以确保它符合您的需求。

评估模块

我们定义了两个评估模块:正确性和语义相似度 - 两者都用于比较预测响应与实际响应的质量。

使用内置检索构建助手

让我们在构建助手的同时,也将内置的OpenAI检索工具传递给它。
在这里,我们在创建助手的过程中上传并传递文件。

基准测试

我们在评估数据集上运行代理程序。我们使用gpt-4-turbo对标准的top-k RAG管道(k=2)进行基准测试。
注意:在我们进行测试的时候(2023年11月),助手API受到严格的速率限制,生成超过60个数据点的响应可能需要大约1-2小时的时间。

定义基准指数 + RAG管道

运行基准评估

这个部分将运行基准评估,以便比较模型的性能。
names
correctness
semantic_similarity
0
Base Query Engine
4.05
0.964245

运行助手API上的评估

获取结果

在这里我们看到……我们的基本RAG管道表现更好。
对这些数字要持保留态度。这里的目标是为您提供一个脚本,以便您可以在自己的数据上运行它。
也就是说,令人惊讶的是检索API并没有立即提供更好的开箱即用性能。
names
correctness
semantic_similarity
0
Retrieval API
3.536364
0.952647
1
Base Query Engine
4.050000
0.964245
Loading...