西班牙芬兰大学:AI绘画识别存在视觉局限
创始人
2025-08-16 18:03:48
0

当下最热门的人工智能话题之一,就是AI能否真正"看懂"艺术。这项由南京航空航天大学的付塔里安、马德里理工大学的哈维尔·孔德等六位研究者组成的国际团队完成的研究,发表于2025年8月5日,论文标题为《人工智能与艺术中的错误信息:视觉语言模型能否判断画布背后是人手还是机器?》。这篇研究就像一场大规模的"艺术真伪鉴定实验",让我们看到了当今最先进AI模型在艺术领域的真实表现。

艺术品真伪鉴定一直是个让专家都头疼的难题。想象一下,你在古董市场看到一幅声称是梵高真迹的画作,你会怎么判断它的真假?传统上,这需要艺术史专家凭借多年经验,仔细观察画风、笔触、颜料等细节。但现在,越来越多的人开始求助于AI,就像问一个无所不能的电子顾问:"这幅画是谁画的?"

这项研究的规模堪称前所未有。研究团队收集了近4万幅来自128位艺术家的真实画作,涵盖了从文艺复兴巨匠达芬奇、米开朗琪罗,到现代艺术大师毕加索、梵高等各个时期的代表性画家。然后,他们又使用三种不同的AI图像生成工具,创造了数万幅模仿这些艺术家风格的人工画作。这就像是搭建了一个巨大的"艺术品鉴定考场",让六个不同公司开发的顶尖AI模型来接受测试。

要理解这个实验的设计思路,可以把它想象成一场特殊的"认人游戏"。研究者会拿出一幅画,然后问AI:"这是毕加索画的吗?请回答是或不是。"接着,他们又会拿出同一幅画问:"这是梵高画的吗?"一个真正懂艺术的AI应该能够准确回答:如果这确实是毕加索的作品,第一个问题答"是",第二个问题答"不是"。

然而,实验结果让人大跌眼镜。这些被寄予厚望的AI模型表现得就像是戴着厚厚眼镜却依然看不清楚的近视鉴定师。有些模型过于保守,几乎对所有画作都摇头说"这不是某某画的";有些则过于自信,看什么都觉得像是大师手笔。最优秀的两个模型,谷歌开发的Gemma3-12B和Meta公司的LLaMa3.2-11B,在最理想情况下也只能达到60%左右的准确率,这意味着十次判断中有四次是错的。

更加戏剧性的发现出现在AI生成画作的测试中。当研究者把AI制造的"赝品"拿给这些模型鉴定时,结果因生成工具的不同而大相径庭。面对Stable Diffusion生成的仿制画,大多数AI模型都被"欺骗"了,经常把机器制作的画当成人类艺术家的真迹。但当面对Flux和F-Lite这两个生成工具的作品时,同样的AI模型却能轻松识破,准确率接近100%。这就好比同一个人面对不同质量的假钞,对高仿的分不出真假,对粗制滥造的却一眼就能看穿。

这种差异背后隐藏着一个有趣的现象:AI图像生成技术虽然都在模仿人类艺术家,但每种技术都有自己独特的"指纹"。Stable Diffusion在模仿梵高时,经常会不分青红皂白地在画面中志性的漩涡图案,即使原作中根本没有这样的元素。这就像一个不太高明的模仿者,只记住了被模仿对象的一个特征,然后到处乱用。

这项研究的意义远远超出了艺术鉴定本身。在当今这个AI助手无处不在的时代,millions的人每天都在向ChatGPT、Claude等AI模型提问,寻求各种问题的答案。如果有人上传一幅画问"这是谁的作品",AI给出的答案很可能是错误的。更严重的是,这些错误信息可能会大规模传播,因为AI系统也被用来自动标注互联网上的海量图片内容。

设想这样一个场景:一个艺术爱好者在网上看到一幅美丽的画作,用AI工具查询后被告知这是某位大师的作品,于是兴高采烈地分享给朋友们。但实际上,这可能是一幅AI生成的仿制品,或者根本就是另一位艺术家的作品。随着这种错误信息的传播,艺术史知识可能会被扭曲。

研究者为了确保实验的公正性和可重复性,特别设计了一套标准化的评估方法。他们没有让AI自由回答"这是谁画的"这样的开放性问题,因为这样会让答案难以统一评判。取而代之的是,他们采用了简单的是非题形式,这样既便于大规模自动化测试,又能准确衡量AI的判断能力。

从技术层面来看,这些AI模型的失误揭示了当前人工智能技术的一个根本局限:它们虽然能够处理海量信息,但在需要深度艺术理解和历史文化知识的任务上,仍然力不从心。这就像让一个记忆力超强但缺乏美学训练的人去鉴定艺术品,虽然能记住很多画作的表面特征,但缺乏真正的理解和判断力。

研究团队在论文中特别强调了这个问题的紧迫性。随着AI生成艺术作品越来越逼真,而普通人又越来越依赖AI获取信息,错误的艺术归属信息可能会大量涌现。这不仅会误导艺术爱好者,还可能影响艺术市场的正常秩序,甚至扭曲人们对艺术史的认知。

为了解决这个问题,研究者建议,在AI技术达到足够可靠的水平之前,人们应该谨慎对待AI提供的艺术鉴定信息,将其仅作为参考而非权威答案。同时,AI开发公司也应该在其产品中加入适当的警告和免责声明,提醒用户AI在艺术鉴定方面的局限性。

这项研究还为未来的AI发展指明了方向。要让AI真正胜任艺术鉴定工作,不仅需要更大的数据库和更强的计算能力,更需要让AI理解艺术创作的深层规律、历史背景和文化内涵。这可能需要将艺术史、美学理论和文化研究等人文学科知识融入AI的训练过程中。

研究的另一个重要贡献是创建了大量的测试数据和评估工具。团队不仅公开了所有的测试数据,还开发了一个交互式网站,让其他研究者和感兴趣的公众都能查看详细的测试结果。这种开放的研究态度大大提高了研究的透明度和可验证性。

研究团队在论文结尾处指出,解决这个问题需要多方面的努力。技术层面上,需要开发更加精准的AI模型,特别是专门针对艺术领域的模型。教育层面上,需要提高公众对AI局限性的认识,避免盲目依赖。监管层面上,可能需要建立相应的标准和规范,确保AI生成内容得到适当的标识。

说到底,这项研究让我们看到了一个有趣的现象:在AI快速发展的今天,机器在某些看似简单的任务上反而表现不佳。艺术鉴定这件事对人类专家来说已经够有挑战性了,对AI来说更是难上加难。但正是这种挑战,推动着技术的不断进步和人类对AI能力边界的深入理解。

归根结底,这项研究提醒我们,虽然AI在很多领域都展现出了惊人的能力,但在需要深度文化理解和艺术鉴赏的任务上,我们仍然不能过分依赖机器的判断。真正的艺术鉴定,可能永远需要人类的智慧、经验和直觉。在AI技术继续发展的同时,保持对其局限性的清醒认识,才是明智的态度。

这项研究的完整论文可以通过arXiv平台访问,论文编号为arXiv:2508.01408v1,有兴趣深入了解技术细节的读者可以查阅原文。研究团队还建立了专门的网站展示所有实验数据和结果,为这个重要议题的进一步研究奠定了坚实基础。

Q&A

A:这取决于生成工具的类型。面对Stable Diffusion生成的画作,大多数AI模型都被"欺骗"了,经常误判为真迹。但面对Flux和F-Lite生成的作品,同样的AI模型却能轻松识破,准确率接近100%。这说明不同AI生成工具有各自独特的"指纹"。

相关内容

热门资讯

原创 此... 熟读汉末三国史的曹操风气是众所周知的。公元198年,曹操强大的一个女人成为妾,这个豆腐人是关羽最先喜...
原创 左... 左权影响力有多大?牺牲后毛主席为他立下一规矩,沿袭至今未更改。左权将军是抗日战争中八路军牺牲的职务最...
原创 毛... 前言 日前,伟大祖国的73岁华诞刚刚落幕,党的二十大也随即召开。岁月静好的和平年代和举国欢庆的壮丽华...
原创 中... 前言 发生在中世纪欧洲的一场巨大的癌疫一黑死病,是欧洲历史上最严重的社会生态灾难。它不仅流行极为迅猛...
原创 娄... 从一个无名小卒,跃升为皇帝的重要谋士,我们今天故事的主角娄敬竟然做到了,这就引出了如下的话题: 娄敬...
司马懿 || 藏锋守拙,待时而... 作者 | 石头城平凡的鱼仔 微信号 | wlk9979 曾几何时,三国的故事让我们心潮澎湃,那些智勇...
原创 毛... “日本人就像一头发疯的毛驴,对这头发疯的毛驴,我们该怎么制服它呢?” 1938年,在延安的窑洞里,毛...
原创 此... 少帅张学良一生功罪分明。 其罪在于下达了不抵抗命令,将东三省拱手相送给了日本人。 其功在于奋起弥天大...
原创 王... 王近山 王近山在红军时期最高当过军长,这个级别确实很高,但是显然王近山的军长和陈再道、许世友的军长含...
原创 刘... 32. 阳光灼热的非洲 非洲,阿非利加洲的简称,“阿非利加”是阳光灼热的意思。非洲1/3的土地是沙漠...