SuperCLUE是一个中文通用大模型综合性测评基准,旨在评估中文大模型在不同能力上的表现,提供详细的榜单和报告,适用于多个领域的应用场景。
H2O LLM Eval是一个用于评估和比较不同语言模型的工具,基于Elo排名算法,帮助用户了解哪个模型更好。它提供模型对战评估和排行榜生成功能,适用于机器学习研究、产品开发和模型比较等场景。