马斯克发布Grok3:多项测试超越DeepSeek,展现强劲竞争力
创始人
2025-02-18 17:02:25
0

转载自《AI范儿》

xAI今日发布新一代大语言模型Grok-3及其精简版Grok-3 mini。最新基准测试显示,Grok-3在与DeepSeek的直接对比中展现出显著优势。

在数学能力测试(AIME'24)中,Grok-3获得52分,明显超过DeepSeek-V3的39分。科学知识评估(GPQA)方面,Grok-3以75分的成绩领先,而DeepSeek-V3为65分。在编程能力测试(LCB Oct-Feb)中,Grok-3同样以57分超过DeepSeek-V3的36分。

最新公布的AIME 2025性能测试中,Grok-3 Reasoning Beta版本在推理和计算时间复合评分上取得93分的优异成绩,其精简版本Grok-3 mini也达到了90分。相比之下,DeepSeek-R1的得分为75分,而Gemini-2 Flash Thinking仅为54分。这一结果进一步凸显了Grok-3在复杂数学推理和计算效率方面的突出优势。

特别值得注意的是,DeepSeek近期发布的DeepSeek-R1在其他推理能力测试中也未能赶超Grok-3。在数学推理中,Grok-3获得93分,DeepSeek-R1为73分;科学推理中,Grok-3得分85分,DeepSeek-R1为74分;编程推理中,Grok-3达到79分,而DeepSeek-R1为65分。

此外,在LMSYS聊天机器人竞技场评估中,Grok-3的得分约为1400分,不仅超过了DeepSeek系列,也领先于其他主流大模型,包括GPT-4、Claude等。

这些数据表明,尽管DeepSeek在过去几个月展现出强劲的发展势头,但Grok-3的整体性能仍然保持领先地位。特别是在数学推理和计算效率方面的优势更为明显,这不仅体现了xAI在模型研发上的技术实力,也显示出AI领域竞争的白热化程度。

相关内容

热门资讯

原创 长... 他从来没有领过兵,更没有打过仗,但是却成了新中国的开国中将。 长征途中,毛主席不幸感染上恶性疟疾,众...
【甘肃“四普”进行时】东乡县第... 自2024年7月开始,东乡县文体广电和旅游局文物普查工作队按照全国第四次文物普查工作相关要求,先后到...
原创 老... 英国摄影师Paul Trevor(保罗·特雷弗 )1975 年拍摄的利物浦照片是《生存计划》的一部分...
原创 明... 公元1449年,在离河北怀来县境内10公里的土木堡,明英宗朱祁镇正带领禁军冲出瓦剌军的包围圈。 然而...
原创 6... 春秋时期,越国君主勾践与重臣文种的故事,是一段典型的权力与忠诚的悲剧。与吴国的战争中,文种与范蠡是勾...
原创 刘... “选择”这两个字用得不对,刘备有选择吗? 在刘备入川前,他手下的将领有:关羽、张飞、赵云、诸葛亮、魏...
原创 她... 十年特殊时期,许多纺织领域的工人借着时势登上政治舞台,或是在地方担任高干,或是进入中央任职,比如说上...
原创 1... 【前言】 1951 年,有一则消息一下子从朝鲜战场传到了国内,这消息跟战场状况没关系。 这和美国或者...
原创 《... 随着《大秦赋》的热播,一个之前不太有名气的地名开始频繁出现,这就是雍城,在剧中的不同时期,雍城都会被...