password
URL
type
status
date
slug
summary
tags
category
icon
周起始
标签
是否汉化
https://nio.feishu.cn/minutes/obcnmf7v7935onk816b88819
在选择适合的嵌入模型时,需要综合考虑多个因素,包括特定领域的适用性、检索精度、支持的语言、文本块长度、模型大小以及检索效率等因素。同时以广泛受到认可的 MTEB(Massive Text Embedding Benchmark)和 C-MTEB(Chinese Massive Text Embedding Benchmark)榜单作为参考,通过涵盖分类、聚类、语义文本相似性、重排序和检索等多个数据集的评测,开发者可以根据不同任务的需求,评估并选择最优的向量模型,以确保在特定应用场景中的最佳性能。MTEB & C-MTEB 榜单
- 比对挖掘(Bitext Mining):
- 输入:比对挖掘的输入是两组来自两种不同语言的句子。
- 任务:对于第一组中的每个句子,需要在第二组中找到最佳匹配的句子。这些匹配通常是翻译。
- 模型使用:提供的模型用于将每个句子嵌入(embedding)到一个向量空间中。
- 匹配寻找:通过余弦相似度(cosine similarity)来找到最接近的配对。
- 评估指标:F1分数(F1 score)是比对挖掘的主要评估指标,同时也会计算准确率(Accuracy)、精确度(Precision)和召回率(Recall)。
- 分类(Classification):
- 输入:训练集和测试集都使用提供的模型进行嵌入。
- 训练:使用训练集的嵌入来训练一个逻辑回归分类器,该分类器最多迭代100次。
- 评估:在测试集上对分类器进行评分。
- 评估指标:主要的评估指标是准确率,同时还会提供平均精确度(Average Precision)和F1分数。
- 聚类(Clustering):
- 目标:将一组句子或段落根据它们的意义分组到不同的簇中。
- 方法:使用一个mini-batch k-means模型,其中批量大小(batch size)设置为32,k值等于不同标签的数量。这个模型是由Pedregosa等人在2011年提出的。
- 评估:使用v-measure来评估模型的性能,这是一种衡量聚类效果的指标,由Rosenberg和Hirschberg在2007年提出。v-measure不依赖于簇的标签,因此标签的排列顺序不会影响得分。
- 成对分类(Pair Classification):
- 目标:给定一对文本输入,需要为它们分配一个标签,通常是二元变量,表示这两个文本是否是重复的或者是同义替换(paraphrase)对。
- 方法:将两个文本嵌入到向量空间中,然后使用不同的度量方法(余弦相似度、点积、欧几里得距离、曼哈顿距离)来计算它们之间的距离。
- 评估:基于最佳的二元阈值,计算准确率、平均精度、f1分数、精确度和召回率。基于余弦相似度的平均精度得分是主要的评估指标。
- 重排序(Reranking):
- 目标:给定一个查询和一系列相关和不相关的参考文本,目标是按照它们与查询的相关性进行排序。
- 方法:使用模型将参考文本嵌入到向量空间中,然后将它们与查询进行比较,使用的是比较余弦相似度。
- 评估:对每个查询的结果进行评分,然后计算所有查询的平均值。主要的评估指标是平均MRR@k和MAP,其中MAP是主要的评估指标。
- 检索(Retrieval):
- 数据集构成:每个数据集包括一个语料库(corpus)、查询(queries)以及每个查询与语料库中相关文档的映射。
- 目标:找到与每个查询相关的文档。
- 模型使用:提供的模型用于将所有查询和语料库文档嵌入(embed)到一个向量空间中。
- 相似度计算:使用余弦相似度(cosine similarity)计算查询与文档之间的相似度得分。
- 排名与评估:基于得分对每个查询的语料库文档进行排名,并计算不同k值下的nDCG@k、MRR@k、MAP@k、precision@k和recall@k等指标。
- 主要指标:nDCG@10作为主要评估指标。
- 数据集与评估:MTEB任务重用了BEIR(Thakur et al., 2021)的数据集和评估方法。
- 语义文本相似度(Semantic Textual Similarity, STS):
- 任务描述:给定一对句子,目标是确定它们的相似度。
- 标签:标签是连续的分数,分数越高表示句子越相似。
- 模型使用:提供的模型用于将句子嵌入到向量空间中。
- 相似度计算:使用不同的距离度量(distance metrics)计算句子之间的相似度。
- 基准测试:使用皮尔逊(Pearson)和斯皮尔曼(Spearman)相关性将计算出的距离与真实相似度标签进行对比。
- 主要指标:基于余弦相似度的斯皮尔曼相关性作为主要评估指标(Reimers et al., 2016)。
- 摘要(Summarization):
- 任务描述:提供了一组人工编写和机器生成的摘要,为机器摘要打分。
- 首先使用提供的模型嵌入所有摘要。
- 对于每个机器摘要的嵌入,计算与所有人工摘要嵌入的距离。
- 保留最接近的分数(例如,最高的余弦相似度)并用作模型对单个机器生成摘要的评分。
- 计算与人工评估机器摘要的皮尔逊和斯皮尔曼相关性。
- 与STS一样,基于余弦相似度的斯皮尔曼相关性作为主要的评估指标(Reimers et al., 2016)。
1. 评测维度及对应数据集
2. 评测工具mteb
3. 竞技场
离开乏味的皮囊,自由的灵魂在路上
- Name: Alan Hsu
- Tag: 随感、技术、经验、旅行、推荐、生活、音乐、电影 etc.
- Email:xulanzhong521gmail.com
- Twitter:@AlanHsu521
- Telegram:@AlanHsu521
- WeChat: Alan_Hsu_521
- Github: https://github.com/xsoway/
- Blog: https://xmylog.com


- Author:Alan_Hsu
- URL:https://xmylog.com/article/articles_Embedding_reporttest
- Copyright:All articles in this blog, except for special statements, adopt BY-NC-SA agreement. Please indicate the source!
Relate Posts