让古籍数字化“活”起来 贵州师大这个学生团队厉害了!
多彩贵州网 2023-08-14 12:30:26

青年,古籍。

一个由学生组成的团队,将这两个词结合在了一起。


(资料图片仅供参考)

贵州师范大学的“溯古寻真”团队,专注于借助AI技术帮助古籍研究者完成古籍残缺部分的数字化修复。用团队创始人焦成的一句话来说就是:“将中华典籍和信息技术相结合,赋予尘封古籍新生命。”

截至目前,这支由在校大学生组成的“溯古寻真”团队交出了抢眼的成绩单:已获批2项语言数据专利,9项发明专利正在审批。这些专利技术为团队提供竞争优势,并为古籍数字化技术解决方案领域,提供独特的技术支持。

罗丽丽老师(左三)与团队成员进行交流

8月10日,多彩贵州网记者在贵州师范大学见到了“溯古寻真”团队创始人,2019级物理与电子科学学院电子信息工程专业毕业生焦成。

一次偶然的机会焦成参加了贵州师范大学图书馆举办的“墨香古韵——雕版印刷、碑帖传拓技艺体验”活动。这让他对古籍修复行业产生了浓厚的兴趣。

焦成了解到我国古籍修复以及古籍数字化面临的困境,特别注意到了因破损残缺严重,导致一部分内容缺失的古籍文献。他联想到“填字”游戏和人工智能,于是有了一个大胆的想法。

贵州师范大学档案馆的古籍修复师向团队成员展示古籍修复过程

焦成开始在学院内组建团队,团队成员横跨工学、文学、历史学、管理学等多个领域,学科交叉、团结协作是这支年轻团队的优势。

古籍修复是一件漫长并且需要极大耐心和细心的事情。为了深入了解古籍数字化之前的人工修复过程,团队成员经常到校档案馆向罗丽丽老师请教,档案馆的古籍修复师向成员们现场一次又一次的展示古籍修复过程。

团队队员们开始有条不紊地着手研发产品,一系列难题随之出现。

由于古籍文献中字体、纸张质地、语言的表达方式、损坏程度等不同,给图像处理和文字识别带来了挑战。系统在识别过程中,需要考虑到历史背景和上下文信息,这彰显了“溯古寻真”团队成员多学科交叉的重要性。

“溯古寻真”系统后台截图

团队去到学校古籍修复中心试用产品,效果并不理想。团队成员将老师正在修补的一本清末年间的书籍进行扫描后补全,但猜测器给出的推测却是五花八门,团队成员受到了极大的打击。

“当时大家垂头丧气的。”焦成回忆着说道。在罗丽丽老师的鼓励下,大家“重整旗鼓”,更换模型重新训练,并继续补充数据集。通过大量实验,技术完全改头换面了。

推翻重来,付出更多时间,对整个团队来说,需要巨大勇气。

那段时间团队成员每天没日没夜跑代码、改算法。

“溯古寻真”系统后台截图

团队再次到古籍修复中心,在老师的指导下,再次进行验证,这次的补全建议基本达到了老师的需求。团队成员又将产品送到不同机构部门试用,最终均得到较好的反馈结果。

一次又一次的补课学习,以及不断实验和改进,不断优化算法和模型,大家精益求精,使“溯古寻真”古籍识别系统达到更好的效果。

贵州师范大学该团队所研发的“溯古寻真”古籍识别系统,拥有自身的核心技术,首创的古籍GCT猜测器创新性地采用深度学习方法,通过检测图像中的文字残缺区域,能够识别出残缺文字所在的位置。

同时,团队改良的二代OCR识别技术与文字校对系统,对文字检索速度提升超10倍;对应知识图谱给出的文字补全建议,达到90%以上的采用率。

“溯古寻真”系统已经助力多家图书馆、档案馆完成了40余册古籍的识别与数字化。

“我们希望,让古籍、碑文上的字以数字化的方式,永远存续。”焦成说,团队将接力奋斗,不断将产品优化升级,助力我国古籍数字化进程的推进。

本网记者:杨昌鼎

一审:曹 轶 林 萌

二审:袁小娟

三审:李 蓓

猜你喜欢

让古籍数字化“活”起来 贵州师大这个学生团队厉害了!

2023-08

糟溜鱼片用什么鱼(糟溜鱼片)

2023-08

台战机投偏炸弹:震波影响数公里外 海巡人员出现幻听

2023-08

热门推荐