AI模型评测

共 12 篇网址

排序

发布更新浏览点赞

StableVicuna

页面未直接介绍lmarena ai功能技术等信息。

9,31396

AI模型评测 AI训练模型 # ai arena # AI assistant comparison # ai chat

CMMLU

CMMLU是用于测量中文大规模多任务语言理解能力的工具。

8,65558

AI模型评测 # AI模型评测

HELM

HELM是一个用于评估语言模型的全面框架，作为实时基准提高语言模型评估的透明度。

10,14720

AI模型评测 # AI模型评测

MMLU

MML基准（多任务语言理解）主要用于评估语言模型在多任务语言理解方面的性能。

13,08838

AI模型评测 # AI模型评测

FlagEval

从页面信息推测，FlagEval可能是一款应用程序。

10,64513

AI模型评测 # AI模型评测

OpenCompass

OpenCompass司南评测榜单是为大语言模型和多模态模型打造的评测平台。

10,89178

AI模型评测 # AI模型评测

AGI-Eval

AGI-Eval评测社区是专注于通用人工智能评估的平台。

10,60759

AI模型评测 # AI模型评测

C-Eval

C-Eval是一个适用于大语言模型的多层次多学科中文评估套件。

10,1724

AI模型评测 # AI模型评测

PubMedQA

PubMedQA是一个用于生物医学研究问答的数据集。

8,40635

AI模型评测 # AI模型评测

MMBench

MMBench是一个用于多模态大型模型（LMMs）评估的平台。

9,54520

AI模型评测 # AI模型评测

SuperCLUE

SuperCLUE是针对中文可用通用大模型的测评基准，是CLUE在通用人工智能时代的进一步发展。

12,21440

AI模型评测 # AI模型评测

H2O EvalGPT

H2O Eval Studio是一款用于评估检索增强生成和大语言模型应用的模块化工作室。

10,90389

AI模型评测 # AI模型评测