语数外AI高考评测：阿里通义千问2-72B以303分位居榜首，OpenAI的GPT-4o以296分居第二

小哪吒

0cfc6e124e4c210b1ab456b8e9868468.jpg.png

中国高考因其高度保密性和综合性，被视为最具权威的考试之一。上海人工智能实验室的司南评测体系OpenCompass，近期对7个大模型进行了高考全卷能力测试，并于6月19日发布了评测结果。

在语数外三科满分420分的情况下，阿里通义千问2-72B以303分的成绩位居榜首，OpenAI的GPT-4o以296分紧随其后，上海人工智能实验室的书生·浦语2.0以微弱差距排名第三，这三个大模型的得分率均超过70%。然而，法国大模型初创公司Mistral的产品排名最后。

参与评测的模型涵盖了阿里巴巴、零一万物、智谱AI、上海人工智能实验室以及法国Mistral的开源模型，还包括OpenAI的闭源模型GPT-4o。为保证评测的公平性，未纳入商用闭源模型，仅将GPT-4o作为参考。

测试结果显示，大模型在语文和英语科目表现良好，但在数学科目普遍不及格，最高分仅为75分，由书生·浦语2.0获得。这表明大模型在复杂推理能力上存在明显不足，这在金融、工业等对准确性要求极高的场景中尤为关键。

d10a962e6b33b8064e109056cc42c8ce.jpg.png

上海人工智能实验室的领军科学家林达华指出，复杂推理对于大模型的商业应用至关重要，尤其是在金融领域，数字的准确性不容忽视。大模型在客服、聊天等场景的应用已较为成熟，但在严肃商业场合的应用仍面临挑战。

评测过程中，采用了全国新课标I卷，包括客观题与主观题。成绩由具有高考评卷经验的老师匿名人工判分，确保了评判的客观性和公正性。值得注意的是，大模型在答题时的错误方式与人类考生不同，阅卷老师在评分过程中需适应这一特点。

实验室还提到，尽管老师们在阅卷前不知情，但在评卷过程中，对于模型生成的答案中的异常情况，如完全不理解题意、乱答等，老师们会与团队确认并按答题错误处理。

完成评卷后，老师们对大模型的整体表现进行了分析，为模型能力的提升提供了策略参考。在语文科目中，模型的现代文阅读理解能力较强，但文言文理解能力参差不齐。作文方面，模型生成的作文更接近问答题，缺乏修饰和论证手法。在数学科目中，大模型的主观题回答较为凌乱，公式记忆能力强，但解题过程不够灵活。英语科目整体表现良好，但部分模型因不适应题型而在某些题目上得分率较低。

此外，由于缺乏卷面，作文评判可能存在1-2分的误差。这次评测不仅为大模型的能力提供了量化评估，也为未来的优化和发展指明了方向。