password
URL
type
status
date
slug
summary
tags
category
icon
周起始
标签
是否汉化
📌

https://nio.feishu.cn/minutes/obcnmf7v7935onk816b88819
在选择适合的嵌入模型时,需要综合考虑多个因素,包括特定领域的适用性、检索精度、支持的语言、文本块长度、模型大小以及检索效率等因素。同时以广泛受到认可的 MTEB(Massive Text Embedding Benchmark)和 C-MTEB(Chinese Massive Text Embedding Benchmark)榜单作为参考,通过涵盖分类、聚类、语义文本相似性、重排序和检索等多个数据集的评测,开发者可以根据不同任务的需求,评估并选择最优的向量模型,以确保在特定应用场景中的最佳性能。MTEB & C-MTEB 榜单
  1. 比对挖掘(Bitext Mining)
      • 输入:比对挖掘的输入是两组来自两种不同语言的句子。
      • 任务:对于第一组中的每个句子,需要在第二组中找到最佳匹配的句子。这些匹配通常是翻译。
      • 模型使用:提供的模型用于将每个句子嵌入(embedding)到一个向量空间中。
      • 匹配寻找:通过余弦相似度(cosine similarity)来找到最接近的配对。
      • 评估指标:F1分数(F1 score)是比对挖掘的主要评估指标,同时也会计算准确率(Accuracy)、精确度(Precision)和召回率(Recall)。
  1. 分类(Classification)
      • 输入:训练集和测试集都使用提供的模型进行嵌入。
      • 训练:使用训练集的嵌入来训练一个逻辑回归分类器,该分类器最多迭代100次。
      • 评估:在测试集上对分类器进行评分。
      • 评估指标:主要的评估指标是准确率,同时还会提供平均精确度(Average Precision)和F1分数。
  1. 聚类(Clustering)
      • 目标:将一组句子或段落根据它们的意义分组到不同的簇中。
      • 方法:使用一个mini-batch k-means模型,其中批量大小(batch size)设置为32,k值等于不同标签的数量。这个模型是由Pedregosa等人在2011年提出的。
      • 评估:使用v-measure来评估模型的性能,这是一种衡量聚类效果的指标,由Rosenberg和Hirschberg在2007年提出。v-measure不依赖于簇的标签,因此标签的排列顺序不会影响得分。
  1. 成对分类(Pair Classification)
      • 目标:给定一对文本输入,需要为它们分配一个标签,通常是二元变量,表示这两个文本是否是重复的或者是同义替换(paraphrase)对。
      • 方法:将两个文本嵌入到向量空间中,然后使用不同的度量方法(余弦相似度、点积、欧几里得距离、曼哈顿距离)来计算它们之间的距离。
      • 评估:基于最佳的二元阈值,计算准确率、平均精度、f1分数、精确度和召回率。基于余弦相似度的平均精度得分是主要的评估指标。
  1. 重排序(Reranking)
      • 目标:给定一个查询和一系列相关和不相关的参考文本,目标是按照它们与查询的相关性进行排序。
      • 方法:使用模型将参考文本嵌入到向量空间中,然后将它们与查询进行比较,使用的是比较余弦相似度。
      • 评估:对每个查询的结果进行评分,然后计算所有查询的平均值。主要的评估指标是平均MRR@k和MAP,其中MAP是主要的评估指标。
  1. 检索(Retrieval)
      • 数据集构成:每个数据集包括一个语料库(corpus)、查询(queries)以及每个查询与语料库中相关文档的映射。
      • 目标:找到与每个查询相关的文档。
      • 模型使用:提供的模型用于将所有查询和语料库文档嵌入(embed)到一个向量空间中。
      • 相似度计算:使用余弦相似度(cosine similarity)计算查询与文档之间的相似度得分。
      • 排名与评估:基于得分对每个查询的语料库文档进行排名,并计算不同k值下的nDCG@k、MRR@k、MAP@k、precision@k和recall@k等指标。
      • 主要指标:nDCG@10作为主要评估指标。
      • 数据集与评估:MTEB任务重用了BEIR(Thakur et al., 2021)的数据集和评估方法。
  1. 语义文本相似度(Semantic Textual Similarity, STS)
      • 任务描述:给定一对句子,目标是确定它们的相似度。
      • 标签:标签是连续的分数,分数越高表示句子越相似。
      • 模型使用:提供的模型用于将句子嵌入到向量空间中。
      • 相似度计算:使用不同的距离度量(distance metrics)计算句子之间的相似度。
      • 基准测试:使用皮尔逊(Pearson)和斯皮尔曼(Spearman)相关性将计算出的距离与真实相似度标签进行对比。
      • 主要指标:基于余弦相似度的斯皮尔曼相关性作为主要评估指标(Reimers et al., 2016)。
  1. 摘要(Summarization)
      • 任务描述:提供了一组人工编写和机器生成的摘要,为机器摘要打分。
      • 首先使用提供的模型嵌入所有摘要。
      • 对于每个机器摘要的嵌入,计算与所有人工摘要嵌入的距离。
      • 保留最接近的分数(例如,最高的余弦相似度)并用作模型对单个机器生成摘要的评分。
      • 计算与人工评估机器摘要的皮尔逊和斯皮尔曼相关性。
      • 与STS一样,基于余弦相似度的斯皮尔曼相关性作为主要的评估指标(Reimers et al., 2016)。

1. 评测维度及对应数据集

2. 评测工具mteb

3. 竞技场

 
 
 
 
 
 
 
🎒
离开乏味的皮囊,自由的灵魂在路上
  • Name: Alan Hsu
  • Tag: 随感、技术、经验、旅行、推荐、生活、音乐、电影 etc.
  • Email:xulanzhong521gmail.com
  • WeChat: Alan_Hsu_521
notion image
notion image
 
 
 
评测任务&评测集大模型测试
Loading...
Alan_Hsu
Alan_Hsu
许心志我在 蓝湛阔天海 中定自主宰
统计
文章数:
197
Latest posts
AI应用评测工具
2025-4-2
OpenCompass评测框架
2025-4-2
评测方法
2025-4-2
大模型评测指标
2025-4-2
评测Prompt
2025-4-2
评测任务&评测集
2025-4-2