AI模型评测

Open LLM Leaderboard 是一款由 Hugging Face 推出的产品，旨在跟踪、排名和评估开放式语言模型，助力用户选择最适合的模型。

chat.lmsys.org是一个在线聊天平台，提供安全的连接和通信服务，同时还能够检查网站的安全性并提醒用户更新浏览器。

CMMLU是一个专注于中文多任务语言理解的评测基准，旨在推动中文NLP领域的研究与应用。

LLM-EVAL是一款智能文本测评平台，支持文本评分、语言模型生成，帮助提升文本质量和创作效率。

Google DeepMind的Gemini是一种全新的AI模型系列，具有多模态处理、长期上下文记忆和持续创新等特点，适用于各种任务和场景。

Holistic Evaluation of Language Models (HELM)是一个旨在提高语言模型透明度的综合评估基准，提供广泛的覆盖范围和多指标测量。

PubMedQA是一个用于生物医学研究问题回答的数据集，包含了专家标注、未标注和人工生成的问题和答案对。该数据集可用于生物医学自然语言处理任务的研究和评估，有助于提升生物医学领域的相关应用。

MMBench是一个用于评估多模态模型性能的基准测试平台，提供多种评估指标和数据集，帮助用户了解和比较不同模型的性能。适用于多模态模型的研究和开发领域。

FlagEval - 排行榜是一个用于评估自然语言处理、计算机视觉、多模态和音频等领域模型性能的平台，提供多个评测领域和评测指标，帮助用户评估模型性能并进行比较。

OpenCompass司南是一家评测榜单平台，为用户提供全面客观的大模型评测服务。

C-Eval是一个适用于大语言模型的多层次多学科中文评估套件，提供全面的评估平台，帮助用户了解不同模型在各种领域的表现。

MMLU Benchmark是一个用于评估多任务语言理解模型性能的基准测试，提供了多个任务和模型的比较排行榜，适用于自然语言处理和人工智能研究。

三维导航 - 优质网址导航大全