史上最强挑战:千名专家打造极致大模型测试集,DeepSeek-R1于纯文本任务中脱颖而出
发布时间:2025-01-24 16:05:01来源:网易
该测试集被誉为史上最难,由全球500多家机构的1000多名学者共同打造,最终入围的3000多道题目均为研究生及以上难度,涵盖数理化、生物医药、工程和社会科学等100余个细分学科。官方称其为“人类最后的考试”,世界首位提示词工程师也称赞其难度符合顶尖模型考验标准。其中,DeepSeek-R1在纯文本任务中位列第一,表现优于o1等强推理模型。
题目筛选过程严格,需经历大模型和人工双重审查。命题者来自高校、研究所、企业等机构,涉及领域广泛。入选题目根据评估情况给予命题人500-5000美元奖励,反映了命题工作的复杂性。该测试集旨在检验AI模型的真实水平,项目主页和数据集链接已公开。
免责声明:本答案或内容为用户上传,不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 如遇侵权请及时联系本站删除。