背景及意义

几千年辉煌的华夏文明,留下了海量的古籍文献资料。这些文献中蕴含着丰富的历史、文学、语言、文化知识,在大数据、大模型、人工智能技术快速发展的时代,如何利用新技术,挖掘和活化利用古籍,是当前研究的热点。

为响应古籍文化遗产保护、古籍数字化与推广应用的国家战略需求,传承中华优秀传统文化,挖掘利用古籍文献中蕴含的丰富知识,古籍透彻数字化工作势在必行。

由于古籍文档图像的版式复杂,不同朝代、不同地区的刻字书写风格差异大,古籍文字图像存在缺失、污渍、笔墨污染、模糊、印章噪声干扰、生僻字异体字繁多等技术挑战,古籍文档图像的智能修复与识别依然是一个极具挑战的技术难题。该领域包含高精度古籍版式分析、文本检测、文本行识别、端到端古籍识别、图像修复等技术。

古籍文档的复杂排版示例

任务描述

任务:古籍文档图像修复与识别
输入:
 篇幅级别的古籍文档图片
输出: 利用文档图像物理及逻辑版面结构分析、文本检测、文字识别、文字阅读顺序理解、图像修复和图像理解等技术输出结构化的文本行坐标以及识别内容,其中各个文本的检测结果与识别内容按阅读顺序进行排列输出。模型仅输出正文的检测识别结果。忽略如版心、卷号等非结构化的内容。

评估方法

文本识别性能指标

  • 首先使用IoU计算预测文本框和标签文本框的匹配情况,选出和标签文本框IoU最大且最大IoU>0.5的预测框为匹配的文本序列串;
  • 接着对匹配的文本串计算归一化的编辑距离(NED)。
  • 考虑到误检的惩罚,对于没有与标签文本框匹配的检测文本框,会与空序列计算编辑距离。Norm1为最终的指标结果。

其中,s1s2为匹配的文本序列串,l1l2分别为各自的文本行长度,n为匹配对的文本行个数。

阅读顺序识别性能指标

为了提升阅读顺序识别的性能,往往需要在返回文本识别结果时对文本框进行重新排序,性能指标借鉴Average Relative Distance(ARD)。

其中,A表示目标序列,B表示模型的生成序列:

  • ek表示序列A中的第k个文本行。
  • I(ek, B)表示当A中第k个元素ek在生成序列B中时,返回此时在B中的索引;
  • ARD(A, B)返回当前图片的阅读顺序检测指标;
  • Norm2为最终的指标结果。

1.古籍文档图像识别比赛数据集

粤港澳大湾区(黄埔)国际算法算例大赛提供了带标注的训练集和验证集,各包括了1000幅古籍文档图像(共2000张图像),数据选自四库全书、历代古籍善本、乾隆大藏经等多种古籍数据。

数据标注格式

每幅图像文本行文字及内容根据文本行阅读顺序进行标注,包含在一个单独的json文件。标注格式如下所示:

{ “image_name_1”, [{“points”: x1, y1, x2, y2, …, xn, yn, “transcription”: text}, {“points”: x1, y1, x2, y2, …, xn, yn, “transcription”: text}, …], “image_name_2”, [{“points”: x1, y1, x2, y2, …, xn, yn, “transcription”: text}, {“points”: x1, y1, x2, y2, …, xn, yn, “transcription”: text}, …], …… }
  • x1, y1, x2, y2, …, xn, yn代表文本框的各个点。
  • 对于四边形文本,n=4;数据集中存在少量不规则文本,对于这类标注,n=16(两条长边各8个点)。
  • Text代表每个文本行的内容,模糊无法识别的字均标注为#。
  • 其中文本行的检测与识别标签按照正确的阅读顺序给出。端到端识别内容按照阅读顺序进行标注,仅考虑文档的正文内容,忽略如版心、卷号等边框外的内容。
  • 阅读顺序的编排如下图所示。
数据集标注示例

2.大藏经数据集MTHv2

华南理工大学提供大藏经MTHv2数据集,包含2200张文档图像。

三种标注类型

MTHv2包含三种类型的标注
第一类是行级注释,包括文本行位置及其文本内容,并按阅读顺序保存。
第二类是字符级注释,包括类别和检测框坐标。
第三类是边界线,由线段的起点和终点表示。

参考方法
单字检测:https://github.com/Tverous/HRCenterNethttps://arxiv.org/abs/2012.05739
布局分析与字符识别:Joint Layout Analysis, Character Detection and Recognition for Historical Document Digitization

3.上海图书馆开放数据竞赛

上图开放数据竞赛为参赛者提供更加丰富和海量的历史人文数据。

4.日本草书体古籍

日本Kuzushiji草书体古籍官方网站

截至2019年11月,包含44本经典书籍(主要是江户时代的书籍和手稿)的6,151张图像,从中剪切出4,328个字符类型,共包含1,086,326张字形图像。并统计了各字符的出现频率。其中,Kuzushiji-Kanji数据集中包含了很多中文草书的字形,KanjiVG是含笔顺信息的矢量字库。

Kuzushiji草书体自公元 8 世纪开始在日本使用,已有一千多年的历史。如今,日本保存了超过300万本草书体书籍,涉及文学、科学、数学和烹饪等各种主题。然而,随着现代印刷技术的普及,以及1900 年的日本教科书标准化,将草书体从学校课程中移除,如今大多数日本人已无法阅读 120 年以前编写的书籍。

自公元 8 世纪汉字传入日本以来,官方记录中一直使用Kanji(日语中的汉字)书写日语。然而,从公元 9 世纪末开始,日本人开始添加自己的字符集:Hiragana(平假名)和Katakana(片假名),它们源自汉字的不同简化方式。单个平假名和片假名字符不包含独立的语义含义,而是带有语音信息(类似英文字母表中的字母)。

在古代Kuzushiji草书体文献中,Kanji、Hiragana和Katakana都有使用。同时,因文献类型不同所常有的字符类型也有所不同。例如,故事书大多用Hiragana平假名书写,而正式记录则主要用Kanji汉字书写。

Kuzushiji识别的难点

字符种类繁多: Kuzushiji 数据集中的字符总数超过 4300 个,频率分布非常长尾,很大一部分字符(具有非常特定含义的汉字)可能只在某一本书中出现一两次。因此,数据集非常不平衡

Hentaigana变假名:古典平假名或变假名(字符变体)的一个特点是,许多字符在现代日语中只能以一种方式书写,但在 Kuzushiji 中却可以以多种不同的方式书写。例如,下图展示了平假名Ha (は) 的多种不同书写方式。

字符之间的相似性: Kuzushiji 中的一些字符看起来非常相似,如果不考虑上下文,很难判断它们是什么字符。例如,下图中的红色圆圈显示了 3 种类型的字符:Ku (く)、重复标记和Te (て)。

字符之间的连接和重叠: Kuzushiji 是用草书书写的,因此在许多情况下,字符是连接或重叠的,这会使文本识别任务变得困难。在下图中,不同颜色的边界框显示出字符的重叠(框的颜色是为了可视化,不包含任何特定含义)。

复杂多变的排版布局: 雕版印刷和手写稿件的文档布局自由度很高,Kuzushiji 字符的排版布局(虽然通常排列成列)并不遵循单一的简单规则。因此,如下图所示,准确的识读出文本的序列并不那么容易。

GitHub: Repository for Kuzushiji_MNIST, Kuzushiji49, and Kuzushiji_Kanji

Kaggle 竞赛:Kuzushiji 字符识别

KuroNet自动识别服务:结合IIIF的方式值得借鉴(细节

Kuzushiji图像生成:根据输入的文本,生成草书体图片。

5.水族水书古籍

大英图书馆的濒危档案计划 (EAP)曾资助两个项目(EAP143EAP460),旨在将 16 世纪至 1990 年代的水族水书文献数字化,这些文献保存在贵州省荔波县档案馆和私人藏家中。EAP网站上可免费访问到这些资源,在IIIF-Viewer中浏览

EAP143/1/1/80: gong zhang ze ji shu [1883]

随着古籍数字化技术的飞速发展,智能分析与识别技术在少数民族古籍文献领域的应用日益受到重视。尽管如此,少数民族文献如水族水书,因其图文混杂、排版多样化,以及自然和人为因素引发的图像退化和噪声问题,给文档的精确分析与识别带来了重大挑战。

图文混杂排版的水书文献样例

本团队与华东师范大学中国文字研究与应用中心(国家人文社会科学重点研究基地)开展跨学科合作研究,已搭建水族水书数据库和智能识别系统。目前,团队针对低资源条件下的少数民族文档识别的共性科学问题,围绕水书文献,正在开展跨模态视觉语言理解跨语言迁移学习模型的相关研究。

6.印章篆书数据集

上海图书馆开放数据平台的印章知识库,包含22,191张印章图像。

截至2022年8月,最新版本(v2.0)的印章篆书数据集是从12本文献中剪切出来的,包含13,213个字符类型,181,084张字符图像。

参考:印章篆书识别测试版