本帖最后由 小哪吒 于 4-24 00:21 编辑
大模型评测社区LMSYS发布了一份大模型排行榜单(排行榜更新日期4月22日)。收集了超过700,000个人类成对比较,使用Bradley-Terry 模型对法学硕士进行排名,并以 Elo 量表显示模型评级。
全类能力中:GPT-4夺冠,Llama 3-70B第六,阿里Qwen1.5-72B第十三
代码能力中:GPT-4夺冠,Llama 3-70B第七
中文能力中:Claude 3夺冠,阿里Qwen1.5-72B第八
下面这张图展示了部分热门模型的比拼次数和胜率,图中的两项指标都没有统计平局的次数。
|