AI考生的高考成绩备受瞩目。上海人工智能实验室的评测显示,AI大模型在高考全科目测试中表现优异。其中,浦语文曲星、阿里通义千问大模型Qwen2-72B和GPT-4o分别在文理科中名列前茅,成绩超过一本和二本线。评测特点包括全卷评分、考前开源、老师打分和完全公开,确保了评分的公正性。 参与评测的模型包括法国Mistral的Mixtral 8x22B、零一万物的Yi-1.5-34B、智谱AI的GLM-4-9B、上海人工智能实验室的InternLM2-20B-WQX、阿里巴巴的Qwen2-57B和Qwen2-72B。Qwen2-72B以546分成为文科状元,浦语文曲星以468.5分成为理科第一。尽管部分大模型成绩未达二本线,但前三甲的表现显示了大模型在语文、历史、地理等科目上的知识储备和理解能力。
然而,阅卷老师指出,大模型在逻辑推理和知识灵活应用方面仍有差距。主要问题包括理解题干不全面、解题过程机械、对实验理解肤浅等。尽管如此,大模型在数学推理上的投入使其在理科成绩上有所提升,浦语文曲星以468.5分的理科成绩领先。评测结果表明,大模型在图片理解和运用能力方面还有很大的提升空间。
|