Open LLM Leaderboard 是一款由 Hugging Face 推出的产品,旨在跟踪、排名和评估开放式语言模型,助力用户选择最适合的模型。
chat.lmsys.org是一个在线聊天平台,提供安全的连接和通信服务,同时还能够检查网站的安全性并提醒用户更新浏览器。
CMMLU是一个专注于中文多任务语言理解的评测基准,旨在推动中文NLP领域的研究与应用。
LLM-EVAL是一款智能文本测评平台,支持文本评分、语言模型生成,帮助提升文本质量和创作效率。
Google DeepMind的Gemini是一种全新的AI模型系列,具有多模态处理、长期上下文记忆和持续创新等特点,适用于各种任务和场景。
Holistic Evaluation of Language Models (HELM)是一个旨在提高语言模型透明度的综合评估基准,提供广泛的覆盖范围和多指标测量。
PubMedQA是一个用于生物医学研究问题回答的数据集,包含了专家标注、未标注和人工生成的问题和答案对。该数据集可用于生物医学自然语言处理任务的研究和评估,有助于提升生物医学领域的相关应用。
MMBench是一个用于评估多模态模型性能的基准测试平台,提供多种评估指标和数据集,帮助用户了解和比较不同模型的性能。适用于多模态模型的研究和开发领域。
FlagEval - 排行榜是一个用于评估自然语言处理、计算机视觉、多模态和音频等领域模型性能的平台,提供多个评测领域和评测指标,帮助用户评估模型性能并进行比较。
OpenCompass司南是一家评测榜单平台,为用户提供全面客观的大模型评测服务。
C-Eval是一个适用于大语言模型的多层次多学科中文评估套件,提供全面的评估平台,帮助用户了解不同模型在各种领域的表现。
MMLU Benchmark是一个用于评估多任务语言理解模型性能的基准测试,提供了多个任务和模型的比较排行榜,适用于自然语言处理和人工智能研究。