本技术涉及一种数字化古籍图像修复技术与系统,包括以下步骤:首先获取含有文字缺失的古籍图片及其对应的原文数据;然后利用预设的汉字识别算法对缺失文字进行识别和修复;最后输出修复后的古籍图像。该技术有效提高了古籍图像修复的准确性和效率。
背景技术
古籍一直以来具有不可估量的历史文化价值。历史流传下来的古籍一般为抄写本或刻印本,大部分以纸质或碑文的形式保存。近年来,由于互联网技术和文档数字化技术的深度发展,许多古籍都被以扫描、拍照等方式转换为数字化的形式进行保存,并在互联网上进行传播和共享。但是由于保护不当或其他历史原因,古籍书页会出现一些破损,比如页面破洞、撕损或者是内容淡化,这些破损在扫描生成的电子文档上也一样会留存。因此,如果能将这些破损的古籍图片还原恢复出来,具有很大的历史意义和社会价值。
对于古籍图像的修复,需要解决两个问题。(1)每一张古籍残缺的位置并不相同,若通过人工将手写的电子化的手写字体以贴图的方式在对应位置进行补全,人力成本过大;(2)每一张古籍的字体书写风格都不同,若通过人工学习每一张古籍的字体书写风格并按照原文内容书写出对应的汉字,需要的人力和时间成本过大,并不现实。因此数字化古籍图像的修复需要可自动化的流程以节省人力和时间成本,但目前尚缺少相应的技术方案。
实现思路