算法提升“眼力”,读懂出土简牍
创始人
2025-09-12 21:03:08
0

西北师范大学张强团队建设简牍字符检测与识别数据集

算法提升“眼力”,读懂出土简牍

本报记者  宋朝军 《人民日报》(2025年06月09日第 12 版)

一声轻鸣,灯光亮起,高光谱成像仪启动,一枚躺在玻璃管里的简牍被缓缓推入。不到半分钟,简牍的高光谱成像图已经出现在屏幕上。

在甘肃省简牍智能计算与数字人文工程研究中心的实验室里,研究中心负责人、西北师范大学教授张强盯着红外图像和光谱曲线仔细分析:“很多简牍文物封存在玻璃管里,不能轻易打开。利用高光谱成像仪扫描和算法处理,可以清晰提取其红外图像信息,为数据集提供更多支持。”

张强所说的数据集,是指简牍字符检测与识别大规模数据集,名为DeepJiandu数据集。今年3月,张强团队联合甘肃简牍博物馆等单位推出数据集,面向全球开放。

甘肃是全国简牍出土最丰富的地区之一。20世纪以来,甘肃出土7万余枚简牍,以汉简居多,内容涉及军事、政务、医药、民俗等。

简牍材料相对脆弱,经过长期埋藏,经常出现字符模糊、字迹缺损等情况。传统的简牍研究,处理一枚简牍的工作量非常大,从定位文字、辨认字形,到记录保存、成果分享都需要人工完成。

张强长期从事计算机科学与管理科学交叉研究工作,“我们如何通过多学科交叉融合,运用人工智能为简牍学研究赋能?”张强带领团队,联合甘肃简牍博物馆、上海中西书局、甘肃文化出版社等,先后收集4万多枚简牍图版,整理4.5万多条释文、近20万个字形等数据。去年6月,简牍学术资源数据共享平台正式上线,面向全球公开免费使用。

在共享平台的研发、应用中,张强团队提出了推出DeepJiandu数据集的想法。“大量看似复杂的简牍特征信息是可以被提取的,该数据集为利用人工智能实现简牍文字智能识别的特征提取提供了基础和可能。”张强说。

数据集就像“养料”,张强团队不断地将其“喂给”各类分析算法。例如,对于一枚简牍,团队通过图像增强、补全、定位等算法,通过大量数据模型训练和算法优化,就能对其文字进行智能检测和识别。

制作这样的数据集,并非简单地“把文字粘贴到表格里”。有些简牍字迹模糊、书写风格复杂,有些简牍还存在着弯曲、断裂等物理变形,加上不同简牍的年代、地域不同,字体形态差异巨大、规范性差……经过反复试错、细致标注,一个字一个字地“抠”,团队开展了多轮对比测试。不断调整优化后,基于DeepJiandu数据集的文字检测精度提升至92%以上,对于一些常见汉字,数据集的表现更加稳定。

两年中,张强团队从不到5人扩展到30多人,人员学术背景构成也拓展到计算机、历史、文学和管理等学科领域,目前正在稳步开展智能识别简牍书写风格、残简断简智能缀合、简牍知识图谱构建等研究项目。“希望更多人愿意加入进来,挖掘简牍学的宝贵价值。”张强说。

相关内容

热门资讯

原创 要... 在最近一段时间里,世界局势风起云涌,谁也没想到,印度和美国之间的关系会被搅得如此紧张。美国总统特朗普...
三度领先三度被扳平!中超-卡扎... 北京时间9月12日20点整,2025赛季中超联赛第24轮的一场焦点战役中,上海申花坐镇主场上海体育场...
王金虎、王廷俊接受审查调查! 晋豫鲁铁路通道股份有限公司原党委书记董事长王金虎接受审查调查 9月12日,据山西省纪委监委网站消息...
原创 这... 咱今天唠唠三国时期的一位大将,这人呐,三国全程他都经历了,见证了蜀汉从兴起到灭亡,可到最后,咋就沦为...
原创 三... 《三国演义》中的二十四名将一直为后人所传颂,这个排名并非依据武力或者等级进行排序,而更像是一首打油诗...
原创 明... 朱元璋,作为明朝的开国皇帝,其一生的经历堪称传奇。由一个衣衫褴褛、身无分文的乞丐,一步步成为权倾天下...
9月13日!汉川启动!直播看这... 数字化时代 网络安全与我们每个人息息相关 9月13日 2025年国家网络安全宣传周 孝感地区活动启动...
原创 李... 唐朝的开国皇帝李渊,身后有三子一女,个个都是卓尔不群的人才,尤其是李世民和李建成这两位,最为引人注目...
原创 诸... 众所周知,诸葛亮是三国时期著名的政治家和军事家,但鲜有人将他与“发明家”这一称号联系在一起。其实,如...
原创 关... 谈到五虎上将,通常人们认为他们是在刘备麾下齐心协力,并且相互之间相处融洽,共同为汉室的复兴而奋斗。然...