算法提升“眼力”,读懂出土简牍
创始人
2025-09-12 21:03:08
0

西北师范大学张强团队建设简牍字符检测与识别数据集

算法提升“眼力”,读懂出土简牍

本报记者  宋朝军 《人民日报》(2025年06月09日第 12 版)

一声轻鸣,灯光亮起,高光谱成像仪启动,一枚躺在玻璃管里的简牍被缓缓推入。不到半分钟,简牍的高光谱成像图已经出现在屏幕上。

在甘肃省简牍智能计算与数字人文工程研究中心的实验室里,研究中心负责人、西北师范大学教授张强盯着红外图像和光谱曲线仔细分析:“很多简牍文物封存在玻璃管里,不能轻易打开。利用高光谱成像仪扫描和算法处理,可以清晰提取其红外图像信息,为数据集提供更多支持。”

张强所说的数据集,是指简牍字符检测与识别大规模数据集,名为DeepJiandu数据集。今年3月,张强团队联合甘肃简牍博物馆等单位推出数据集,面向全球开放。

甘肃是全国简牍出土最丰富的地区之一。20世纪以来,甘肃出土7万余枚简牍,以汉简居多,内容涉及军事、政务、医药、民俗等。

简牍材料相对脆弱,经过长期埋藏,经常出现字符模糊、字迹缺损等情况。传统的简牍研究,处理一枚简牍的工作量非常大,从定位文字、辨认字形,到记录保存、成果分享都需要人工完成。

张强长期从事计算机科学与管理科学交叉研究工作,“我们如何通过多学科交叉融合,运用人工智能为简牍学研究赋能?”张强带领团队,联合甘肃简牍博物馆、上海中西书局、甘肃文化出版社等,先后收集4万多枚简牍图版,整理4.5万多条释文、近20万个字形等数据。去年6月,简牍学术资源数据共享平台正式上线,面向全球公开免费使用。

在共享平台的研发、应用中,张强团队提出了推出DeepJiandu数据集的想法。“大量看似复杂的简牍特征信息是可以被提取的,该数据集为利用人工智能实现简牍文字智能识别的特征提取提供了基础和可能。”张强说。

数据集就像“养料”,张强团队不断地将其“喂给”各类分析算法。例如,对于一枚简牍,团队通过图像增强、补全、定位等算法,通过大量数据模型训练和算法优化,就能对其文字进行智能检测和识别。

制作这样的数据集,并非简单地“把文字粘贴到表格里”。有些简牍字迹模糊、书写风格复杂,有些简牍还存在着弯曲、断裂等物理变形,加上不同简牍的年代、地域不同,字体形态差异巨大、规范性差……经过反复试错、细致标注,一个字一个字地“抠”,团队开展了多轮对比测试。不断调整优化后,基于DeepJiandu数据集的文字检测精度提升至92%以上,对于一些常见汉字,数据集的表现更加稳定。

两年中,张强团队从不到5人扩展到30多人,人员学术背景构成也拓展到计算机、历史、文学和管理等学科领域,目前正在稳步开展智能识别简牍书写风格、残简断简智能缀合、简牍知识图谱构建等研究项目。“希望更多人愿意加入进来,挖掘简牍学的宝贵价值。”张强说。

相关内容

热门资讯

日媒:事发东京闹市区,一名40... 【环球网报道 记者 索炎琦】据日本共同社报道,调查人员透露,一名40多岁的陆上自卫队队员因涉嫌谋杀未...
宋代官窑米黄釉瓷器欣赏 宋代官窑米黄釉三蹬方壶 口沿内敛,长方形器身三段衔接,器壁微鼓,平底,矮足,垫足烧造,足底涂酱色护...
卡洛斯·克莱伯指挥演奏《艺术家... 曲目:艺术家的生涯圆舞曲 指挥:卡洛斯·克莱伯 《艺术家的生涯圆舞曲》旋律轻缓而优美,带着安静恬淡的...
原创 雍... 在电视剧《雍正王朝》中,为了帮助观众解答一些难点,导演特意安排了一个特殊的角色——邬思道,他既是剧中...
当“柴火”落在“瓷器”上,这是... 交汇点讯 用柴火烧制的茶杯看起来会有什么不同?在第六届长三角文博会现场,以“柴烧”工艺铸就的茶具吸引...
原创 明... 纵观中国古代历史,设立陪都的朝代并不少见。唐朝设有东都洛阳,北宋设有西京河南府,明代也有陪都南京。但...
新书速览|Spark大数据开发... 清华大学黄永峰教授、江铭虎教授郑重推荐,培训机构长达8年千锤百炼、锻造而成,教学视频、作者微信群答疑...
中国5000年绘画史——历代名... 杨维桢(1296—1370),字廉夫,号铁崖、铁笛道人、东维子等,是元末明初集文学、书法于一身的一代...