Embedding 模型评测 | X·myLog

password

URL

type

status

date

slug

summary

tags

category

icon

周起始

标签

是否汉化

📌

https://nio.feishu.cn/minutes/obcnmf7v7935onk816b88819
如何评估 Embedding 模型
嵌入模型榜单地址：Massive Textual Embedding Benchmark leaderboard

在选择适合的嵌入模型时，需要综合考虑多个因素，包括特定领域的适用性、检索精度、支持的语言、文本块长度、模型大小以及检索效率等因素。同时以广泛受到认可的 MTEB（Massive Text Embedding Benchmark）和 C-MTEB（Chinese Massive Text Embedding Benchmark）榜单作为参考，通过涵盖分类、聚类、语义文本相似性、重排序和检索等多个数据集的评测，开发者可以根据不同任务的需求，评估并选择最优的向量模型，以确保在特定应用场景中的最佳性能。MTEB & C-MTEB 榜单

比对挖掘（Bitext Mining）：

输入：比对挖掘的输入是两组来自两种不同语言的句子。

任务：对于第一组中的每个句子，需要在第二组中找到最佳匹配的句子。这些匹配通常是翻译。

模型使用：提供的模型用于将每个句子嵌入（embedding）到一个向量空间中。

匹配寻找：通过余弦相似度（cosine similarity）来找到最接近的配对。

评估指标：F1分数（F1 score）是比对挖掘的主要评估指标，同时也会计算准确率（Accuracy）、精确度（Precision）和召回率（Recall）。

分类（Classification）：

输入：训练集和测试集都使用提供的模型进行嵌入。

训练：使用训练集的嵌入来训练一个逻辑回归分类器，该分类器最多迭代100次。

评估：在测试集上对分类器进行评分。

评估指标：主要的评估指标是准确率，同时还会提供平均精确度（Average Precision）和F1分数。

聚类（Clustering）：

目标：将一组句子或段落根据它们的意义分组到不同的簇中。

方法：使用一个mini-batch k-means模型，其中批量大小（batch size）设置为32，k值等于不同标签的数量。这个模型是由Pedregosa等人在2011年提出的。

评估：使用v-measure来评估模型的性能，这是一种衡量聚类效果的指标，由Rosenberg和Hirschberg在2007年提出。v-measure不依赖于簇的标签，因此标签的排列顺序不会影响得分。

成对分类（Pair Classification）：

目标：给定一对文本输入，需要为它们分配一个标签，通常是二元变量，表示这两个文本是否是重复的或者是同义替换（paraphrase）对。

方法：将两个文本嵌入到向量空间中，然后使用不同的度量方法（余弦相似度、点积、欧几里得距离、曼哈顿距离）来计算它们之间的距离。

评估：基于最佳的二元阈值，计算准确率、平均精度、f1分数、精确度和召回率。基于余弦相似度的平均精度得分是主要的评估指标。

重排序（Reranking）：

目标：给定一个查询和一系列相关和不相关的参考文本，目标是按照它们与查询的相关性进行排序。

方法：使用模型将参考文本嵌入到向量空间中，然后将它们与查询进行比较，使用的是比较余弦相似度。

评估：对每个查询的结果进行评分，然后计算所有查询的平均值。主要的评估指标是平均MRR@k和MAP，其中MAP是主要的评估指标。

检索（Retrieval）：

数据集构成：每个数据集包括一个语料库（corpus）、查询（queries）以及每个查询与语料库中相关文档的映射。

目标：找到与每个查询相关的文档。

模型使用：提供的模型用于将所有查询和语料库文档嵌入（embed）到一个向量空间中。

相似度计算：使用余弦相似度（cosine similarity）计算查询与文档之间的相似度得分。

排名与评估：基于得分对每个查询的语料库文档进行排名，并计算不同k值下的nDCG@k、MRR@k、MAP@k、precision@k和recall@k等指标。

主要指标：nDCG@10作为主要评估指标。

数据集与评估：MTEB任务重用了BEIR（Thakur et al., 2021）的数据集和评估方法。

语义文本相似度（Semantic Textual Similarity, STS）：

任务描述：给定一对句子，目标是确定它们的相似度。

标签：标签是连续的分数，分数越高表示句子越相似。

模型使用：提供的模型用于将句子嵌入到向量空间中。

相似度计算：使用不同的距离度量（distance metrics）计算句子之间的相似度。

基准测试：使用皮尔逊（Pearson）和斯皮尔曼（Spearman）相关性将计算出的距离与真实相似度标签进行对比。

主要指标：基于余弦相似度的斯皮尔曼相关性作为主要评估指标（Reimers et al., 2016）。

摘要（Summarization）：

任务描述：提供了一组人工编写和机器生成的摘要，为机器摘要打分。

首先使用提供的模型嵌入所有摘要。

对于每个机器摘要的嵌入，计算与所有人工摘要嵌入的距离。

保留最接近的分数（例如，最高的余弦相似度）并用作模型对单个机器生成摘要的评分。

计算与人工评估机器摘要的皮尔逊和斯皮尔曼相关性。

与STS一样，基于余弦相似度的斯皮尔曼相关性作为主要的评估指标（Reimers et al., 2016）。

1. 评测维度及对应数据集

https://huggingface.co/C-MTEB中文

https://github.com/embeddings-benchmark/mteb外文

2. 评测工具mteb

3. 竞技场

https://github.com/embeddings-benchmark/arena

🎒

离开乏味的皮囊，自由的灵魂在路上

Name: Alan Hsu

Tag: 随感、技术、经验、旅行、推荐、生活、音乐、电影 etc.

Email：xulanzhong521gmail.com

Twitter：@AlanHsu521

Telegram：@AlanHsu521

WeChat: Alan_Hsu_521

Github: https://github.com/xsoway/

Blog: https://xmylog.com

notion image

notion image

Author:Alan_Hsu
URL:https://xmylog.com/article/articles_Embedding_reporttest
Copyright:All articles in this blog, except for special statements, adopt BY-NC-SA agreement. Please indicate the source!

Relate Posts

deepseek-r1:7b和deepseek-r1:1.5b-qwen-distill-q4_K_M区别和释义

Lazy loaded image

CrewAI tool 调用是写在agents里还是task里

Lazy loaded image

2025_周报 #06

Lazy loaded image

Prompt Engeering

Lazy loaded image

Python测试开发

Lazy loaded image

流程式知识体系

Lazy loaded image

评测任务&评测集大模型测试

Loading...

Catalog

0%

Alan_Hsu

许心志我在蓝湛阔天海中定自主宰

统计

文章数:

197

Latest posts

打造个人跑步主页running_page

OpenCompass评测框架

Catalog

0%