首页 >> 科技 >

史上最强挑战:千名专家打造极致大模型测试集,DeepSeek-R1于纯文本任务中脱颖而出

2025-01-24 16:05:01 来源:网易 用户:梁柔中 

该测试集被誉为史上最难,由全球500多家机构的1000多名学者共同打造,最终入围的3000多道题目均为研究生及以上难度,涵盖数理化、生物医药、工程和社会科学等100余个细分学科。官方称其为“人类最后的考试”,世界首位提示词工程师也称赞其难度符合顶尖模型考验标准。其中,DeepSeek-R1在纯文本任务中位列第一,表现优于o1等强推理模型。

题目筛选过程严格,需经历大模型和人工双重审查。命题者来自高校、研究所、企业等机构,涉及领域广泛。入选题目根据评估情况给予命题人500-5000美元奖励,反映了命题工作的复杂性。该测试集旨在检验AI模型的真实水平,项目主页和数据集链接已公开。

  免责声明:本文由用户上传,与本网站立场无关。财经信息仅供读者参考,并不构成投资建议。投资者据此操作,风险自担。 如有侵权请联系删除!

 
分享:
最新文章
版权与免责声明:
①凡本网注明"来源:驾联网"的所有作品,均由本网编辑搜集整理,并加入大量个人点评、观点、配图等内容,版权均属于驾联网,未经本网许可,禁止转载,违反者本网将追究相关法律责任。
②本网转载并注明自其它来源的作品,目的在于传递更多信息,并不代表本网赞同其观点或证实其内容的真实性,不承担此类作品侵权行为的直接责任及连带责任。其他媒体、网站或个人从本网转载时,必须保留本网注明的作品来源,并自负版权等法律责任。
③如涉及作品内容、版权等问题,请在作品发表之日起一周内与本网联系,我们将在您联系我们之后24小时内予以删除,否则视为放弃相关权利。