中国高考因其高度保密性和综合性,被视为最具权威的考试之一。上海人工智能实验室的司南评测体系OpenCompass,近期对7个大模型进行了高考全卷能力测试,并于6月19日发布了评测结果。
在语数外三科满分420分的情况下,阿里通义千问2-72B以303分的成绩位居榜首,OpenAI的GPT-4o以296分紧随其后,上海人工智能实验室的书生·浦语2.0以微弱差距排名第三,这三个大模型的得分率均超过70%。然而,法国大模型初创公司Mistral的产品排名最后。
参与评测的模型涵盖了阿里巴巴、零一万物、智谱AI、上海人工智能实验室以及法国Mistral的开源模型,还包括OpenAI的闭源模型GPT-4o。为保证评测的公平性,未纳入商用闭源模型,仅将GPT-4o作为参考。
测试结果显示,大模型在语文和英语科目表现良好,但在数学科目普遍不及格,最高分仅为75分,由书生·浦语2.0获得。这表明大模型在复杂推理能力上存在明显不足,这在金融、工业等对准确性要求极高的场景中尤为关键。 上海人工智能实验室的领军科学家林达华指出,复杂推理对于大模型的商业应用至关重要,尤其是在金融领域,数字的准确性不容忽视。大模型在客服、聊天等场景的应用已较为成熟,但在严肃商业场合的应用仍面临挑战。
评测过程中,采用了全国新课标I卷,包括客观题与主观题。成绩由具有高考评卷经验的老师匿名人工判分,确保了评判的客观性和公正性。值得注意的是,大模型在答题时的错误方式与人类考生不同,阅卷老师在评分过程中需适应这一特点。
实验室还提到,尽管老师们在阅卷前不知情,但在评卷过程中,对于模型生成的答案中的异常情况,如完全不理解题意、乱答等,老师们会与团队确认并按答题错误处理。
完成评卷后,老师们对大模型的整体表现进行了分析,为模型能力的提升提供了策略参考。在语文科目中,模型的现代文阅读理解能力较强,但文言文理解能力参差不齐。作文方面,模型生成的作文更接近问答题,缺乏修饰和论证手法。在数学科目中,大模型的主观题回答较为凌乱,公式记忆能力强,但解题过程不够灵活。英语科目整体表现良好,但部分模型因不适应题型而在某些题目上得分率较低。
此外,由于缺乏卷面,作文评判可能存在1-2分的误差。这次评测不仅为大模型的能力提供了量化评估,也为未来的优化和发展指明了方向。
|