史上最强挑战：千名专家打造极致大模型测试集，DeepSeek-R1于纯文本任务中脱颖而出

发布时间：2025-01-24 16:05:01来源：网易

该测试集被誉为史上最难，由全球500多家机构的1000多名学者共同打造，最终入围的3000多道题目均为研究生及以上难度，涵盖数理化、生物医药、工程和社会科学等100余个细分学科。官方称其为“人类最后的考试”，世界首位提示词工程师也称赞其难度符合顶尖模型考验标准。其中，DeepSeek-R1在纯文本任务中位列第一，表现优于o1等强推理模型。

题目筛选过程严格，需经历大模型和人工双重审查。命题者来自高校、研究所、企业等机构，涉及领域广泛。入选题目根据评估情况给予命题人500-5000美元奖励，反映了命题工作的复杂性。该测试集旨在检验AI模型的真实水平，项目主页和数据集链接已公开。

标签：史上最强挑战千名专家打造极致大模型测试集DeepSeekR1于纯文本任务中脱颖而出

免责声明：本答案或内容为用户上传，不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。如遇侵权请及时联系本站删除。

史上最强挑战：千名专家打造极致大模型测试集，DeepSeek-R1于纯文本任务中脱颖而出

相关阅读

猜你喜欢

汽车经验

汽车知识

汽车常识

汽车百科

最新滚动