Holistic Evaluation of Language Models (HELM)是一个旨在提高语言模型透明度的综合评估基准,提供广泛的覆盖范围和多指标测量。
MMBench是一个用于评估多模态模型性能的基准测试平台,提供多种评估指标和数据集,帮助用户了解和比较不同模型的性能。适用于多模态模型的研究和开发领域。
FlagEval - 排行榜是一个用于评估自然语言处理、计算机视觉、多模态和音频等领域模型性能的平台,提供多个评测领域和评测指标,帮助用户评估模型性能并进行比较。
OpenCompass司南是一家评测榜单平台,为用户提供全面客观的大模型评测服务。
C-Eval是一个适用于大语言模型的多层次多学科中文评估套件,提供全面的评估平台,帮助用户了解不同模型在各种领域的表现。
MMLU Benchmark是一个用于评估多任务语言理解模型性能的基准测试,提供了多个任务和模型的比较排行榜,适用于自然语言处理和人工智能研究。
H2O LLM Eval是一个用于评估和比较不同语言模型的工具,基于Elo排名算法,帮助用户了解哪个模型更好。它提供模型对战评估和排行榜生成功能,适用于机器学习研究、产品开发和模型比较等场景。