一种古籍文档顺序检测方法技术

技术编号:33893467 阅读:16 留言:0更新日期:2022-06-22 17:29
本发明专利技术公开了一种古籍文档顺序检测方法,包括:获取图像数据,基于图像数据进行各个字符的连接顺序标注以及整个文档的文本行顺序标注,获得训练数据集;基于训练数据集,通过空间几何关系构造图的邻接矩阵,构造图中各个结点的特征以及边特征,训练字符连接关系预测模型,得到将字符连接后的文本行;基于训练数据集,通过编码

【技术实现步骤摘要】
一种古籍文档顺序检测方法


[0001]本专利技术属于文档的顺序检测方法,尤其涉及一种古籍文档顺序检测方法。

技术介绍

[0002]文档的阅读顺序检测,作为理解视觉富文档内容的基础任务,即指得到能够让读者直接理解的排序片段输出。现有的大多数阅读顺序检测都是通过启发式的方法得到结果,即指从检测出的字符结果按照从上到下,从左到右的阅读顺序输出最终的内容。然而,对于无约束排布的文档内容,特别是古籍文档等多版面以及竖排的布局结构,这种启发式的方法得到的结果大多是错误的。错误的阅读顺序输出对于其它的文档理解任务,诸如信息抽取等,会带来错误的输出结果。因此,一种鲁棒且通用的文档顺序检测方案对于文档理解任务是不可或缺的。
[0003]近年来,相关学者提出用于解决文档顺序检测的方案,由于文档的顺序标注数据集需要很多的人力标注,这些方法都仅使用较少的数据集训练,也有相关学者提出一些启发式的规则来解决该问题。最新的,有学者提出基于深度学习的方法来解决电商场景下的顺序检测问题,然而该方法使用的数据集中文本的片段较少,不存在密集字符的挑战。因此,急需一种针对密集型的古籍文档顺序检测方法,特别的对于密集型的古籍文档图片数据,能够更进一步的进行纸质文档转录,减少人力的标注过程,进一步的加快文档数字化进程。

技术实现思路

[0004]本专利技术的目的在于提出一种古籍文档顺序检测方法,使得文档类型的数据被精确地进行纸质文档转录。
[0005]为实现上述目的,本专利技术提供了一种古籍文档顺序检测方法,包括:
[0006]获取图像数据,基于所述图像数据进行各个字符的连接顺序标注以及整个文档的文本行顺序标注,获得训练数据集;
[0007]基于所述训练数据集,通过空间几何关系构造图的邻接矩阵,构造图中各个结点的特征以及边特征,训练字符连接关系预测模型,得到将字符连接后的文本行;
[0008]基于所述训练数据集,通过编码

解码的序列模型,构建并训练文本行顺序预测模型,获得文本行顺序预测结果;
[0009]根据所述图像数据,基于所述训练字符连接关系预测模型和所述训练文本行顺序预测模型,获得图像数据的符合阅读顺序的文档内容。
[0010]可选的,所述图像数据包括:手写无约束文本行数据集CASIA、字符排列规整古籍文档数据集TKH、单字排布多样古籍文档数据集MTH;所述文本数据包括:使用文本行标注的古籍数据集。
[0011]可选的,连续顺序标注包括:各个单字字符的下一个连接字符。
[0012]可选的,构建训练字符连接关系预测模型包括:通过计算各个字符结点的L2距离,
对于每个字符结点找到最近的8个字符结点,构造k阶子图网络,基于各个字符的几何结构,构造图的结点特征以及边特征,基于空间几何关系构造图的邻接矩阵,训练得到基于字符结点的连接关系图网络预测模型。
[0013]可选的,构建训练字符连接关系预测模型还包括阈值,所述阈值用于判断所述图像数据能否进行训练;基于空间L2距离,构造每个结点的8邻域子图,计算节点数目的IoU,当IoU大于阈值则图像数据不进行训练,反之则进行训练。
[0014]可选的,所述构造k阶子图网络中,所述结点特征为各个字符的归一化中心点坐标以及归一化的宽高;所述边特征为字符间的宽高比以及横纵坐标距离差;构造的邻接矩阵为两个字符结点满足每个字符结点的KNN矩阵中的前k个结点。
[0015]可选的,所述编码

解码的序列模型包括:基于文本行的版面坐标信息以及位置编号信息,通过Transformer模型得到编码后的特征序列,通过Decoder添加分类分支,预测各个时间步对应输入序列的索引,根据各个时间步的预测结果,基于交叉熵损失计算损失训练编码

解码的序列模型。
[0016]可选的,根据数据集中的字符输入,通过字符连接关系预测模型,得到连接后的文本行输出;通过文本行的输出,利用文本行顺序预测模型,得到最终的文档顺序化输出内容。
[0017]本专利技术技术效果:本专利技术公开了一种古籍文档顺序检测方法,针对密集字符型的文档图片,基于字符检测结果进行顺序检测,提出包括单字连接关系预测模型以及文本行顺序预测模型。将现代计算机信息技术和文档数字化内容相结合,对于数字遗产保护、信息发现、自动化纸质文档转录流程等工作具有重要的作用。
附图说明
[0018]构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
[0019]图1为本专利技术实施例古籍文档顺序检测方法的流程示意图;
[0020]图2为本专利技术实施例字符连接关系预测的网络图;
[0021]图3为本专利技术实施例文本行顺序预测的网络图;
[0022]图4为本专利技术实施例字符连接关系的可视化效果图,其中(a)图为CASIA数据集,(b)图为TKH数据集,(c)图为MTH数据集;
[0023]图5为本专利技术实施例文本行顺序预测的可视化效果图。
具体实施方式
[0024]需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
[0025]需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
[0026]如图1

5所示,本实施例中提供一种古籍文档顺序检测方法,包括:
[0027]获取图像数据,基于所述图像数据进行各个字符的连接顺序标注以及整个文档的
文本行顺序标注,获得训练数据集;
[0028]基于所述训练数据集,通过空间几何关系构造图的邻接矩阵,构造图中各个结点的特征以及边特征,训练字符连接关系预测模型,得到将字符连接后的文本行;
[0029]基于所述训练数据集,通过编码

解码的序列模型,构建并训练文本行顺序预测模型,获得文本行顺序预测结果;
[0030]根据所述图像数据,基于所述训练字符连接关系预测模型和所述训练文本行顺序预测模型,获得图像数据的符合阅读顺序的文档内容。
[0031]进一步优化方案,所述图像数据包括:手写无约束文本行数据集CASIA、字符排列规整古籍文档数据集TKH、单字排布多样古籍文档数据集MTH;所述文本数据包括:使用文本行标注的古籍数据集。
[0032]获取数据:针对单字连接关系预测以及文本行顺序预测,我们分为两部分进行实验数据集构建。其中单字连接关系预测包括手写无约束文本行数据集CASIA,该数据集特点是其中的单字都是手写的无约束文本行,同时含有标点符号;TKH数据集为古籍文档数据集,其中数据集字符排列规整;MTH数据集为古籍文档数据集,该数据集单字排布多样,同时有多个版面区域以及双列夹注情形,训练难本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种古籍文档顺序检测方法,其特征在于,包括:获取图像数据,基于所述图像数据进行各个字符的连接顺序标注以及整个文档的文本行顺序标注,获得训练数据集;基于所述训练数据集,通过空间几何关系构造图的邻接矩阵,构造图中各个结点的特征以及边特征,训练字符连接关系预测模型,得到将字符连接后的文本行;基于所述训练数据集,通过编码

解码的序列模型,构建并训练文本行顺序预测模型,获得文本行顺序预测结果;根据所述图像数据,基于所述训练字符连接关系预测模型和所述训练文本行顺序预测模型,获得图像数据的符合阅读顺序的文档内容。2.如权利要求1所述的古籍文档顺序检测方法,其特征在于,所述图像数据包括:手写无约束文本行数据集CASIA、字符排列规整古籍文档数据集TKH、单字排布多样古籍文档数据集MTH;所述文本数据包括:使用文本行标注的古籍数据集。3.如权利要求2所述的古籍文档顺序检测方法,其特征在于,连续顺序标注包括:各个单字字符的下一个连接字符。4.如权利要求3所述的古籍文档顺序检测方法,其特征在于,构建训练字符连接关系预测模型包括:通过计算各个字符结点的L2距离,对于每个字符结点找到最近的8个字符结点,构造k阶子图网络,基于各个字符的几何结构,构造图的结点特征以及边特征,基于空间几何关系构造图的邻接矩阵,训练得到基于...

【专利技术属性】
技术研发人员:马伟洪金连文孔宇昕
申请(专利权)人:华南理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1