马斯克发布Grok3:多项测试超越DeepSeek,展现强劲竞争力
创始人
2025-02-18 17:02:25
0

转载自《AI范儿》

xAI今日发布新一代大语言模型Grok-3及其精简版Grok-3 mini。最新基准测试显示,Grok-3在与DeepSeek的直接对比中展现出显著优势。

在数学能力测试(AIME'24)中,Grok-3获得52分,明显超过DeepSeek-V3的39分。科学知识评估(GPQA)方面,Grok-3以75分的成绩领先,而DeepSeek-V3为65分。在编程能力测试(LCB Oct-Feb)中,Grok-3同样以57分超过DeepSeek-V3的36分。

最新公布的AIME 2025性能测试中,Grok-3 Reasoning Beta版本在推理和计算时间复合评分上取得93分的优异成绩,其精简版本Grok-3 mini也达到了90分。相比之下,DeepSeek-R1的得分为75分,而Gemini-2 Flash Thinking仅为54分。这一结果进一步凸显了Grok-3在复杂数学推理和计算效率方面的突出优势。

特别值得注意的是,DeepSeek近期发布的DeepSeek-R1在其他推理能力测试中也未能赶超Grok-3。在数学推理中,Grok-3获得93分,DeepSeek-R1为73分;科学推理中,Grok-3得分85分,DeepSeek-R1为74分;编程推理中,Grok-3达到79分,而DeepSeek-R1为65分。

此外,在LMSYS聊天机器人竞技场评估中,Grok-3的得分约为1400分,不仅超过了DeepSeek系列,也领先于其他主流大模型,包括GPT-4、Claude等。

这些数据表明,尽管DeepSeek在过去几个月展现出强劲的发展势头,但Grok-3的整体性能仍然保持领先地位。特别是在数学推理和计算效率方面的优势更为明显,这不仅体现了xAI在模型研发上的技术实力,也显示出AI领域竞争的白热化程度。

相关内容

热门资讯

原创 许... 在三国历史的烽火岁月中,有许多令后人津津乐道的英雄人物与经典战斗,而许褚与马超的对决便是其中之一。许...
原创 秦... 围绕秦始皇陵发掘问题的讨论,一直备受关注,也充满了争议。就目前来看,形势是非常清楚的,那就是包括秦始...
原创 完... 书名:《北宋穿越指南》 作者:王梓钧 状态:已完结 字数:411万字左右 小说标签:架空历史、轻松、...
原创 这... 我们阅尽铅华,只为呈现不一样的历史。 众所周知,宋太祖赵匡胤自从“黄袍加身”后,由于担心武将势力过大...
原创 宋... 提起宋朝赤胆忠心,能在身上刻字以表明报国之志的,大家首先想到的肯定是就是名族英雄“精忠岳飞”了,毕竟...
苏有朋音乐会普通票不能合影,本... 近日,苏有朋将举办音乐会,其中vip票有1V10的合影环节,但因票较少抢票困难,部分粉丝希望普通票也...
原创 他... 在三国时期,他胜过吕布,投靠谁就杀谁,是三国的大恶人,为何却受后人香火供奉? 在三国时期,充满了英雄...
皇家玉雕、礼赞百年,《紫禁百年... 2025年3月,《紫禁百年徽宝》发布会在北京张铁成、王建艺术馆隆重举行。故宫博物院原副院长陈丽华、张...
原创 没... 司马南和刘绍棠,你能想到两者之间的联系吗?嗯,似乎是某种意外的巧合吧,但真相有点让人吃惊。 你可能...
原创 刘... 熟读汉末三国史,我们不得不承认,建安二十四年,即公无219年,是关羽最辉煌的一年,也是他最凄惨的一年...