password
URL
type
status
date
slug
summary
tags
category
icon
周起始
标签
是否汉化
评测任务
1. 自然语言处理
- 特征提取Feature Extraction:https://huggingface.co/tasks/feature-extraction
- 掩码Fill-Mask:https://huggingface.co/tasks/fill-mask
- 问答Question Answering:https://huggingface.co/tasks/question-answering
- 句子相似度Sentence Similarity:https://huggingface.co/tasks/sentence-similarity
- 摘要(Summarization):https://huggingface.co/tasks/summarization
- 表格问答(Table Question Answering):https://huggingface.co/tasks/table-question-answering
- 文本分类(Text Classification):https://huggingface.co/tasks/text-classification
- 文本生成(Text Generation):https://huggingface.co/tasks/text-generation
- 令牌分类(Token Classification):https://huggingface.co/tasks/token-classification
- 翻译(Translation):https://huggingface.co/tasks/translation
- 零样本分类(Zero-Shot Classification):https://huggingface.co/tasks/zero-shot-classification
2. 多模态
- 文档视觉问答(Document Question Answering,简称DQA)https://huggingface.co/tasks/document-question-answering
- 图像-文本到文本(Image-Text-to-Text):https://huggingface.co/tasks/image-text-to-text
- 视频-文本到文本(Video-Text-to-Text):https://huggingface.co/tasks/video-text-to-text
- 视觉问答(Visual Question Answering,简称VQA):https://huggingface.co/tasks/visual-question-answering
3. 声音处理
- 音频分类(Audio Classification),这项任务用于识别用户给出的命令、语句中的情感,以及识别说话者是谁。https://huggingface.co/tasks/audio-classification
- 音频生音频(Audio-to-Audio ):https://huggingface.co/tasks/audio-to-audio
- 自动语音识别(Automatic Speech Recognition,简称ASR)也被称为语音转文本(Speech to Text,简称STT)https://huggingface.co/tasks/automatic-speech-recognition
- 文本转语音(Text-to-Speech (TTS))https://huggingface.co/tasks/text-to-speech
4. 表格处理
- 表格分类(Tabular Classification)它根据有限数量的属性给定一个标签或类别,本质是分类任务https://huggingface.co/tasks/tabular-classification
- 表格回归(Tabular Regression)根据一组属性(attributes)来预测一个数值(numerical value)。https://huggingface.co/tasks/tabular-regression
5. 计算机视觉
- 深度估计(Depth Estimation),https://huggingface.co/tasks/depth-estimation
- 图像分类(Image Classification),https://huggingface.co/tasks/image-classification
- 图像特征提取(Image Feature Extraction),https://huggingface.co/tasks/image-feature-extraction
- 图像分割(Image Segmentation)https://huggingface.co/tasks/image-segmentation
- 图生图(Image-to-Image)https://huggingface.co/tasks/image-to-image
- 图生文(Image-to-Text)https://huggingface.co/tasks/image-to-text
- 关键点检测(Keypoint Detection)https://huggingface.co/tasks/keypoint-detection
- 掩码生成(Mask Generation)https://huggingface.co/tasks/mask-generation
- 目标检测(Object Detection)https://huggingface.co/tasks/object-detection
- 视频分类(Video Classification)https://huggingface.co/tasks/video-classification
- 文本到图像(Text-to-Image)https://huggingface.co/tasks/text-to-image
- 文生视频(Text-to-Video)https://huggingface.co/tasks/text-to-video
- 无条件图像生成(Unconditional Image Generation)https://huggingface.co/tasks/unconditional-image-generation
- 零样本图像分类(Zero-Shot Image Classification)https://huggingface.co/tasks/zero-shot-image-classification
- 零样本目标检测(Zero-Shot Object Detection)https://huggingface.co/tasks/zero-shot-object-detection
- 文本到3D(Text-to-3D)https://huggingface.co/tasks/text-to-3d
- 图像到3D(Image-to-3D)https://huggingface.co/tasks/image-to-3d
6. 强化学习
评测集
评测集是为有效评估基础模型及其微调算法在不同场景、不同任务上的综合效果,所构建的单任务或多任务的统一基准数据集,有公开和封闭两种形态。
这些评测集就像针对不同领域的考卷,通过测试大模型在这些“考卷”中的得分,人们可以更直观地比较大模型的性能高低。
1. 评测集社区
在小模型时代,大多数模型机构都会使用学术类评测集效果来作为评判模型好坏的依据。现在,大模型厂商也开始更加主动地参与到学术界基准测试框架中来,视其为权威背书与营销依据。
市面上已出现不少大模型的评测集,例如国际上用的较多的大模型评测集MMLU、中文评估模型C-Eval、SuperCLUE等。
大部分公开数据集可以从Hugging Face上获取https://huggingface.co/datasets。
2. 典型评测集解读
LLMs:MMLU基准(大规模多任务语言理解)的简介(MMLU-ZS/MMLU-FS)、安装、使用方法之详细攻略-CSDN博客
- MMLU(Massive Multitask Language Understanding,大规模多任务语言理解)
是一个由Hendrycks等人在《Measuring Massive Multitask Language Understanding》中提出的新基准,旨在通过仅在零样本和少样本设置下评估模型来衡量预训练期间获得的知识。这使得基准更具挑战性,更类似于我们评估人类的方式。该基准涵盖了57个科目,包括STEM(科学、技术、工程、数学)、人文科学、社会科学等领域。它的难度从初级水平到高级专业水平不等,测试的内容既涵盖世界知识,又涉及问题解决能力。科目涵盖传统领域(如数学和历史)以及更专业的领域,如法律和伦理学。基准的细粒度和广度使其能够发现模型的盲点。
在MMLU基准中,涉及到了两种特定的测试设置,即mmlu-zs(zero-shot)和mmlu-fs(few-shot)。这些测试设置旨在模拟零样本学习和少样本学习的情况,更接近人类学习的方式。通过使用MMLU-ZS和MMLU-FS进行评估,可以更好地了解模型在没有大量训练数据的情况下的泛化能力和适应能力。这使得评估更加接近真实世界的应用场景,并揭示了模型的弱点和改进的方向。
MMLU-ZS | "MMLU-ZS"代表"Massive Multitask Language Understanding - Zero-Shot"(零样本)。在MMLU基准中,MMLU-ZS是指在没有进行任何额外训练的情况下,通过零样本学习来评估模型的性能。在这种设置下,模型需要在没有之前见过的任务或领域的情况下进行推理和理解。MMLU-ZS(Zero-Shot MMLU)是指零样本MMLU。这意味着模型在训练阶段没有接触过MMLU-ZS数据集中的示例。通过在这个子集上评估模型的性能,可以测试模型在新领域或未知主题下的语言生成和理解能力。 |
MMLU-FS | "MMLU-FS"代表"Massive Multitask Language Understanding - Few-Shot"(少样本)。在MMLU基准中,MMLU-FS是指通过少量样本进行学习来评估模型的性能。模型在这种设置下需要在只有极少数量的训练示例的情况下进行推理和理解。MMLU-FS(Five-Shot MMLU)是指五样本MMLU。这意味着模型在训练阶段接触了MMLU-FS数据集中的少量示例(通常是五个示例)。通过在这个子集上评估模型的性能,可以测试模型对少量训练样本的学习和泛化能力。 |
- CEVAL评测集
全面的中文基础模型评估套件。包含了13948个多项选择题,涵盖了52个不同学科和四个难度等级。主要用来评估模型的知识和推理能力。
- MT-Bench数据集
尽管我们认为人类偏好是黄金标准,但收集人类偏好非常缓慢且昂贵。
MT-Bench的目的是提供一个自动化的、可扩展的方法来评估LLM与人类偏好的一致性,具体是使用GPT-4作为裁判员,将Prompt输入给各个大模型,对他们的输出进行打分。包含80个高质量多轮问题的测试,旨在测试模型的对话和遵循指令的能力。这些问题分布在8个类别中,包括写作、角色扮演、提取信息、推理、数学、编程以及STEM和人文/社会科学知识领域。您可以在这里查看MT-bench的示例问题和回答。
使用方法:
https://github.com/lm-sys/FastChat/blob/main/fastchat/llm\\_judge/README.md https://blog.csdn.net/qiaotl/article/details/135077857
- AlignBench数据集
针对中文大模型的评测基准,能够在多维度上细致评测模型和人类意图的对齐水平。数据集来自于真实的使用场景,经过初步构造、敏感性筛查、参考答案生成和难度筛选等步骤,确保具有真实性和挑战性。数据集分为8个大类,包括知识问答、写作生成、角色扮演等多种类型的问题。https://paperswithcode.com/dataset/alignbench
整个评估过程包含三个步骤:获取待评测模型的生成结果、调用评价模型获取分析和打分,最终计算结果。
- SuperCLUE中文通用大模型综合性基准
\[1] CLUE官网:www.CLUEBenchmarks.com
\[2] SuperCLUE排行榜网站:www.superclueai.com
\[3] Github地址:https://github.com/CLUEbenchmark
- HumanEval
该工具采用使用pass@k指标评估功能正确性,"pass@k"是一个特定的评估指标,通常用于衡量在给定k个可能的输出中,程序输出是否至少有一个是正确的。这种方法在评估编程任务的自动完成或代码生成任务时特别有用,因为它允许一定程度的灵活性,而不是要求完全精确的输出匹配。
- AlpacaEval
AlpacaEval 是一种用于评估大语言模型性能的指标,它被设计用于对抗生成式预训练(GPT)模型的弱点,并更全面地反映模型的真实能力。这一指标由 OpenAI 提出,旨在解决以往评估指标的一些局限性,特别是在理解和生成多样性方面存在的问题。
AlpacaEval 的名称中,“Alpaca” 代表一种动物,是一种灵活而多才多艺的动物,象征着模型在不同任务和语境中的灵活性和多功能性。而“Eval” 则是 evaluation 的缩写,表示评估。因此,AlpacaEval 旨在通过更全面的评估,更准确地捕捉模型的综合表现。
它基于AlpacaFarm评估集,测试模型遵循一般用户指令的能力。然后,这些响应与参考响应(AlpacaEval使用Davinci003,AlpacaEval 2.0使用GPT-4预览版)通过提供的基于GPT-4的自动注释器进行比较,从而得出上述的胜率。
AlpacaEval 主要关注以下几个方面:
- 多样性(Diversity): 衡量模型生成文本的多样性,避免单一或刻板的输出。多样性是指模型在生成不同样本时的差异程度。在实际应用中,我们期望模型不仅能够生成准确的内容,还能够呈现出多样的表达方式,以适应不同场景和需求。
- 一致性(Consistency): 评估模型在处理相似输入时生成的输出是否一致。一致性是指当模型面对相似的问题或请求时,其回应应该是稳定和一致的。这有助于确保模型在类似场景下能够提供可靠的结果。
- 相关性(Relevance): 衡量生成文本与输入之间的语义相关性。相关性是指模型生成的文本是否与给定的输入有明确的关联,以及是否符合预期的语境。这有助于确保模型的输出在语境上是合理的,而不是简单地生成无关或荒谬的内容。
二、评估指标
alpaca\_eval评估方法主要采用了以下指标:
1.BLEU:一种基于n-gram重叠度的评估指标,用于衡量生成文本与参考文本的相似度。
2.ROUGE:一种基于召回率的评估指标,用于衡量生成文本中覆盖参考文本的信息量。
3.METEOR:一种结合了词汇匹配、句法匹配和词汇覆盖度的评估指标,用于衡量生成文本与参考文本的语义相似度。
4.CIDEr:一种基于共识度的评估指标,用于衡量生成文本在多个参考文本中的共识程度。
5.SPICE:一种基于语义解析的评估指标,用于衡量生成文本与参考文本在语义上的相似度。
三、评估流程
1.准备数据:使用alpaca数据集,将数据分为训练集、验证集和测试集。
2.训练模型:使用训练集对文本生成模型进行训练。
3.生成文本:使用验证集对模型进行验证,生成预测文本。
4.评估性能:使用alpaca\_eval评估方法,计算生成文本与参考文本在各个指标上的得分。
5.分析结果:根据评估结果,分析模型在各个方面的优缺点,为进一步优化模型提供依据。
3. 构建评测集
离开乏味的皮囊,自由的灵魂在路上
- Name: Alan Hsu
- Tag: 随感、技术、经验、旅行、推荐、生活、音乐、电影 etc.
- Email:xulanzhong521gmail.com
- Twitter:@AlanHsu521
- Telegram:@AlanHsu521
- WeChat: Alan_Hsu_521
- Github: https://github.com/xsoway/
- Blog: https://xmylog.com


- Author:Alan_Hsu
- URL:https://xmylog.com/article/articles_LLMTest_task
- Copyright:All articles in this blog, except for special statements, adopt BY-NC-SA agreement. Please indicate the source!
Relate Posts