评测任务&评测集

是一个由Hendrycks等人在《Measuring Massive Multitask Language Understanding》中提出的新基准，旨在通过仅在零样本和少样本设置下评估模型来衡量预训练期间获得的知识。这使得基准更具挑战性，更类似于我们评估人类的方式。该基准涵盖了57个科目，包括STEM（科学、技术、工程、数学）、人文科学、社会科学等领域。它的难度从初级水平到高级专业水平不等，测试的内容既涵盖世界知识，又涉及问题解决能力。科目涵盖传统领域（如数学和历史）以及更专业的领域，如法律和伦理学。基准的细粒度和广度使其能够发现模型的盲点。

在MMLU基准中，涉及到了两种特定的测试设置，即mmlu-zs（zero-shot）和mmlu-fs（few-shot）。这些测试设置旨在模拟零样本学习和少样本学习的情况，更接近人类学习的方式。通过使用MMLU-ZS和MMLU-FS进行评估，可以更好地了解模型在没有大量训练数据的情况下的泛化能力和适应能力。这使得评估更加接近真实世界的应用场景，并揭示了模型的弱点和改进的方向。

MMLU-ZS

"MMLU-ZS"代表"Massive Multitask Language Understanding - Zero-Shot"（零样本）。在MMLU基准中，MMLU-ZS是指在没有进行任何额外训练的情况下，通过零样本学习来评估模型的性能。在这种设置下，模型需要在没有之前见过的任务或领域的情况下进行推理和理解。MMLU-ZS（Zero-Shot MMLU）是指零样本MMLU。这意味着模型在训练阶段没有接触过MMLU-ZS数据集中的示例。通过在这个子集上评估模型的性能，可以测试模型在新领域或未知主题下的语言生成和理解能力。

MMLU-FS

"MMLU-FS"代表"Massive Multitask Language Understanding - Few-Shot"（少样本）。在MMLU基准中，MMLU-FS是指通过少量样本进行学习来评估模型的性能。模型在这种设置下需要在只有极少数量的训练示例的情况下进行推理和理解。MMLU-FS（Five-Shot MMLU）是指五样本MMLU。这意味着模型在训练阶段接触了MMLU-FS数据集中的少量示例（通常是五个示例）。通过在这个子集上评估模型的性能，可以测试模型对少量训练样本的学习和泛化能力。

使用方法：https://github.com/hendrycks/test

CEVAL评测集

全面的中文基础模型评估套件。包含了13948个多项选择题，涵盖了52个不同学科和四个难度等级。主要用来评估模型的知识和推理能力。

如何在C-Eval上测试：https://github.com/hkust-nlp/ceval/blob/main/README\\_zh.md#如何在c-eval上测试

论文地址：https://arxiv.org/abs/2305.08322

项目地址：https://github.com/hkust-nlp/ceval

MT-Bench数据集

尽管我们认为人类偏好是黄金标准，但收集人类偏好非常缓慢且昂贵。

MT-Bench的目的是提供一个自动化的、可扩展的方法来评估LLM与人类偏好的一致性，具体是使用GPT-4作为裁判员，将Prompt输入给各个大模型，对他们的输出进行打分。包含80个高质量多轮问题的测试，旨在测试模型的对话和遵循指令的能力。这些问题分布在8个类别中，包括写作、角色扮演、提取信息、推理、数学、编程以及STEM和人文/社会科学知识领域。您可以在这里查看MT-bench的示例问题和回答。

使用方法：

https://github.com/lm-sys/FastChat/blob/main/fastchat/llm\\_judge/README.md https://blog.csdn.net/qiaotl/article/details/135077857

https://huggingface.co/spaces/lmsys/mt-bench

AlignBench数据集

针对中文大模型的评测基准，能够在多维度上细致评测模型和人类意图的对齐水平。数据集来自于真实的使用场景,经过初步构造、敏感性筛查、参考答案生成和难度筛选等步骤,确保具有真实性和挑战性。数据集分为8个大类,包括知识问答、写作生成、角色扮演等多种类型的问题。https://paperswithcode.com/dataset/alignbench

使用方法：https://github.com/thudm/alignbench。

整个评估过程包含三个步骤：获取待评测模型的生成结果、调用评价模型获取分析和打分，最终计算结果。