一种古籍文档顺序检测方法技术

技术编号：33893467 阅读：16 留言：0更新日期：2022-06-22 17:29

本发明专利技术公开了一种古籍文档顺序检测方法,包括：获取图像数据，基于图像数据进行各个字符的连接顺序标注以及整个文档的文本行顺序标注，获得训练数据集；基于训练数据集，通过空间几何关系构造图的邻接矩阵，构造图中各个结点的特征以及边特征，训练字符连接关系预测模型，得到将字符连接后的文本行；基于训练数据集，通过编码

全部详细技术资料下载

【技术实现步骤摘要】
一种古籍文档顺序检测方法

[0001]本专利技术属于文档的顺序检测方法，尤其涉及一种古籍文档顺序检测方法。

技术介绍

[0002]文档的阅读顺序检测，作为理解视觉富文档内容的基础任务，即指得到能够让读者直接理解的排序片段输出。现有的大多数阅读顺序检测都是通过启发式的方法得到结果，即指从检测出的字符结果按照从上到下，从左到右的阅读顺序输出最终的内容。然而，对于无约束排布的文档内容，特别是古籍文档等多版面以及竖排的布局结构，这种启发式的方法得到的结果大多是错误的。错误的阅读顺序输出对于其它的文档理解任务，诸如信息抽取等，会带来错误的输出结果。因此，一种鲁棒且通用的文档顺序检测方案对于文档理解任务是不可或缺的。
[0003]近年来，相关学者提出用于解决文档顺序检测的方案，由于文档的顺序标注数据集需要很多的人力标注，这些方法都仅使用较少的数据集训练，也有相关学者提出一些启发式的规则来解决该问题。最新的，有学者提出基于深度学习的方法来解决电商场景下的顺序检测问题，然而该方法使用的数据集中文本的片段较少，不存在密集字符的挑战。因此，急需一种针对密集型的古籍文档顺序检测方法，特别的对于密集型的古籍文档图片数据，能够更进一步的进行纸质文档转录，减少人力的标注过程，进一步的加快文档数字化进程。

技术实现思路

[0004]本专利技术的目的在于提出一种古籍文档顺序检测方法，使得文档类型的数据被精确地进行纸质文档转录。
[0005]为实现上述目的，本专利技术提供了一种古籍文档顺序检测方法，包括：
[0...

【技术保护点】

【技术特征摘要】
1.一种古籍文档顺序检测方法，其特征在于，包括：获取图像数据，基于所述图像数据进行各个字符的连接顺序标注以及整个文档的文本行顺序标注，获得训练数据集；基于所述训练数据集，通过空间几何关系构造图的邻接矩阵，构造图中各个结点的特征以及边特征，训练字符连接关系预测模型，得到将字符连接后的文本行；基于所述训练数据集，通过编码
‑
解码的序列模型，构建并训练文本行顺序预测模型，获得文本行顺序预测结果；根据所述图像数据，基于所述训练字符连接关系预测模型和所述训练文本行顺序预测模型，获得图像数据的符合阅读顺序的文档内容。2.如权利要求1所述的古籍文档顺序检测方法，其特征在于，所述图像数据包括：手写无约束文本行数据集CASIA、字符排列规整古籍文档数据集TKH、单字排布多样古籍文档数据集MTH；所述文本数据包括：使用文本行标注的古籍数据集。3.如权利要求2所述的古籍文档顺序检测方法，其特征在于，连续顺序标注包括：各个单字字符的下一个连接字符。4.如权利要求3所述的古籍文档顺序检测方法，其特征在于，构建训练字符连接关系预测模型包括：通过计算各个字符结点的L2距离，对于每个字符结点找到最近的8个字符结点，构造k阶子图网络，基于各个字符的几何结构，构造图的结点特征以及边特征，基于空间几何关系构造图的邻接矩阵，训练得到基于...

【专利技术属性】
技术研发人员：马伟洪，金连文，孔宇昕，
申请(专利权)人：华南理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人