SuperCLUE发布中文大模型基准测评2023年度报告

2023-12-28 14:12 北京商报

北京商报讯（记者杨月涵）12月28日，国内中文模型评测机构SuperCLUE发布中文大模型基准测评2023年度报告。根据报告，过去半年，国内领军大模型企业实现了大模型代际追赶的奇迹，从7月份与GPT3.5的20分差距，每个月都有稳定且巨大的提升，到11月份测评时已经完成总分上对GPT3.5的超越。

据介绍，本次测评数据选取了SuperCLUE-12月测评结果，模型选取了国内外有代表性的26个大模型在12月份的版本。

测评结果显示，国内外差距依然明显。GPT4-Turbo总分90.63分遥遥领先，高于其他国内大模型及国外大模型。其中国内最好模型文心一言4.0(API)总分79.02分，距离GPT4-Turbo有11.61分，距离GPT4(网页)有4.9分的差距。

但过去1年国内大模型已经有了长足的进步。综合能力超过GPT3.5和Gemini-Pro的模型有11个，比如百度的文心一言4.0、阿里云的通义千问2.0和Qwen-72B-Chat、OPPO的AndesGPT、清华&智谱AI的智谱清言、字节跳动的云雀大模型等都有比较好的表现。

另外国内开源模型在中文上表现要好于国外开源模型，如百川智能的Baichuan2-13B-Chat、阿里云的Qwen-72B、Yi-34B-Chat均优于Llama2-13B-Chat。