马斯克发布Grok3:多项测试超越DeepSeek,展现强劲竞争力
创始人
2025-02-18 17:02:25
0

转载自《AI范儿》

xAI今日发布新一代大语言模型Grok-3及其精简版Grok-3 mini。最新基准测试显示,Grok-3在与DeepSeek的直接对比中展现出显著优势。

在数学能力测试(AIME'24)中,Grok-3获得52分,明显超过DeepSeek-V3的39分。科学知识评估(GPQA)方面,Grok-3以75分的成绩领先,而DeepSeek-V3为65分。在编程能力测试(LCB Oct-Feb)中,Grok-3同样以57分超过DeepSeek-V3的36分。

最新公布的AIME 2025性能测试中,Grok-3 Reasoning Beta版本在推理和计算时间复合评分上取得93分的优异成绩,其精简版本Grok-3 mini也达到了90分。相比之下,DeepSeek-R1的得分为75分,而Gemini-2 Flash Thinking仅为54分。这一结果进一步凸显了Grok-3在复杂数学推理和计算效率方面的突出优势。

特别值得注意的是,DeepSeek近期发布的DeepSeek-R1在其他推理能力测试中也未能赶超Grok-3。在数学推理中,Grok-3获得93分,DeepSeek-R1为73分;科学推理中,Grok-3得分85分,DeepSeek-R1为74分;编程推理中,Grok-3达到79分,而DeepSeek-R1为65分。

此外,在LMSYS聊天机器人竞技场评估中,Grok-3的得分约为1400分,不仅超过了DeepSeek系列,也领先于其他主流大模型,包括GPT-4、Claude等。

这些数据表明,尽管DeepSeek在过去几个月展现出强劲的发展势头,但Grok-3的整体性能仍然保持领先地位。特别是在数学推理和计算效率方面的优势更为明显,这不仅体现了xAI在模型研发上的技术实力,也显示出AI领域竞争的白热化程度。

相关内容

热门资讯

原创 这... 三国时期是一个英雄辈出的时代,除了众多名将的贡献,谋士的智慧和谋略同样在历史上占据了重要位置。在三国...
日用陶瓷不知选哪家?景德镇航冉... 日用陶瓷怎么选 在选择日用陶瓷时,很多消费者会感到困惑。如今市场上陶瓷品牌众多,质量和风格参差不齐。...
原创 中... 历史的进程往往与战争息息相关。秦始皇统一六国,建立了秦朝,奠定了中国几千年来的疆域基础。那时的中国版...
原创 蹬... 这位93岁仍在蹬三轮车的老人,竟然是抗战时期飞虎队的传奇成员,而如今他的传奇故事也随着他的离世而消逝...
选日用陶瓷纠结?景德镇航冉陶瓷... 日用陶瓷的选择考量 在选择日用陶瓷时,人们往往会考虑多方面因素,如产品质量、设计风格、文化内涵以及售...
如何选陶瓷餐具批发厂家 选景德... 陶瓷餐具批发厂家的地域优势 陶瓷餐具批发厂家在地域选择上十分重要。像位于千年瓷都景德镇的厂家就颇具优...
原创 这... 这五个人在文学作品中被过度神话,第二位被称为神机妙算,但实际上他并不如姜子牙那样拥有通天的能力。姜子...
原创 长... 在《三国演义》中,黄忠初登场时已经接近六十岁,但他的武艺却依然非常高强。在长沙之战中,他与关羽激战了...
原创 特... 东海有一座小岛,距离台湾仅有110公里,离钓鱼岛也只有150公里,但却离日本本土有两千多公里。岛上的...
股票行情快报:萃华珠宝(002... 证券之星消息,截至2025年12月22日收盘,萃华珠宝(002731)报收于13.13元,上涨1.3...