文档版面分析模型训练方法、应用方法、计算机装置及计算机可读存储介质制造方法及图纸

技术编号：40578237 阅读：5 留言：0更新日期：2024-03-06 17:20

本发明专利技术提供一种文档版面分析模型训练方法、应用方法、计算机装置及计算机可读存储介质，文档版面分析模型训练方法包括：将样本文档按页转换成样本图像；使用标注工具对样本图像进行标注，得到样本数据和标注数据，样本数据包括进行标注后的多个样本图像；将滑动窗口的边长作为惩罚项设计YOLO卷积神经网络模型的损失函数；设置YOLO卷积神经网络模型使用滑动窗口检测，并设置检测框的预设值以及步长移动的预设值；将样本数据和标注数据输入YOLO卷积神经网络模型进行训练，保存最佳模型参数，得到目标检测模型。通过本发明专利技术的文档版面分析模型训练方法得到的目标检测模型可以实现对文档中各个版面信息的自动化提取，进而提高文档处理和分析的效率和准确性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机视觉，具体是涉及一种文档版面分析模型训练方法、应用方法、计算机装置及计算机可读存储介质。

技术介绍

1、目前的文档版面分析主要是通过解析文档，获取文档中包含的格式信息来输出文档结构及布局，并提取出各个版块的信息，如标题、副标题、正文、图片等。但是，由于文档类型众多，且部分文档没有存储文档格式信息如pdf文档或者pdf扫描文档，通过解析文档获取文档格式信息的方法无法处理。

2、此外，对文档进行解析和处理，提取文档每页的文本信息的方式，在针对多栏文档和表格文档时无法进行正确提取，且目前的方法提取的文本，无法区分文本在所属文档中的类型(如：标题、段落、页眉、页脚、表格标题、图片标题等信息)，使得后续文本处理工作变的困难。

技术实现思路

1、本专利技术的第一目的是提供一种实现自动识别文档版面中各种元素的文档版面分析模型训练方法。

2、本专利技术的第二目的是提供一种实现自动分析文档的结构以及布局的文档版面分析模型的应用方法。

3、本专利技术的第三目的是提供一种包括上述文档版面分析模型及应用方法的计算机装置。

4、本专利技术的第四目的是提供一种包括上述文档版面分析模型及应用方法的计算机可读存储介质。

5、为了实现上述的第一目的，本专利技术提供的一种文档版面分析模型训练方法，其中，包括以下步骤：将样本文档按页转换成样本图像；使用标注工具对样本图像进行标注，得到样本数据和标注数据，样本数据包括进行标注后的多个样本图像；

6、由上述方案可见，本专利技术基于深度学习的方式，将样本文档转换成样本图像，并按照文档的预设类别进行标注，并按照改进后的训练模型进行训练，从而得到可自动检测图像中的类别信息以及位置坐标信息的目标检测模型，实现自动识别版面的各种元素(如标题、正文、图片等)并将其在文档中准确定位。本专利技术提出了卷积神经网络的目标检测优化后yolo算法(优化损失函数，引入滑动窗口检测机制)，能够快速检测出文档中表格、图片、段落等信息，同时可以处理多栏文档目标检测问题，实现对文档中各个版面信息的自动化提取，从而提高文档处理和分析的效率和准确性。

7、进一步的方案是，使用标注工具按照预设类别对样本图像进行标注，得到样本数据和标注数据时，包括：按照标题、段落、页眉、页脚、表格标题以及图片标题的类别对样本图像进行标注。

8、由此可见，覆盖了文档中可能存在的类别，提高文档识别的效果。

9、进一步的方案是，使用标注工具对样本图像进行标注，得到样本数据和标注数据后，对样本数据和标注数据均按照预设相同比例分成训练样本、验证样本和测试样本；将样本数据和标注数据输入yolo卷积神经网络模型进行训练时，将训练样本、验证样本和测试样本输入yolo卷积神经网络模型进行训练。

10、进一步的方案是，在使用标注工具对样本图像进行标注，得到样本数据和标注数据后，通过数据增强算法处理样本数据。

11、由此可见，通过数据增强算法，可以增加新的样本数据和标注数据，并提高模型训练的鲁棒性。

12、进一步的方案是，在使用标注工具对样本图像进行标注，得到样本数据和标注数据后，通过直方图均衡化或伽马变换对样本数据进行图像增强。

13、由此可见，通过对样本图像的预处理，可以提高图像质量和减少干扰，从而可以更好地进行目标检测。

14、进一步的方案是，通过数据增强算法处理样本数据时，包括：对样本数据进行随机旋转90°、180°或270°，并同步变换并记录样本数据对应的标注坐标信息。

15、由此可见，可以扩充样本数据和标注数据。

16、为了实现上述的第二目的，本专利技术提供的一种文档版面分析模型的应用方法，其中，包括以下步骤：获取需要进行版面分析的当前文档；将当前文档按页转换成当前图像；依次将当前图像输入上述的文档版面分析模型训练方法得到的目标检测模型，得到类别信息以及位置坐标信息；根据位置坐标信息进行位置分析，输出当前文档的版面信息；根据位置坐标信息对相应的坐标区域位置文本进行文本识别，提取文本信息，并与类别信息生成当前文档的结构化数据。

17、由上述方案可见，本专利技术通过将需要分析的当前文档按页转换成当前图像后输入到上述的目标检测模型，从而得到每页的类别信息以及位置坐标信息，进而得到整个当前文档的版面信息，进而通过文本识别得到当前文档的结构化数据。本专利技术可以通过目标检测模型自动识别文档每页的各个区域的各种类别信息并准确定位与识别，从而输出文档的结构以及布局，无需文档的格式信息，可以适用于pdf文档或pdf扫描文档。

18、为了实现上述的第三目的，本专利技术提供的一种计算机装置，包括处理器与存储器，其中：存储器上存储有计算机程序，计算机程序被处理器执行时实现上述的文档版面分析模型训练方法和/或上述的文档版面分析模型的应用方法。

19、为了实现上述的第四目的，本专利技术提供的一种计算机可读存储介质，其中：计算机程序被处理器执行时实现上述的文档版面分析模型训练方法和/或上的文档版面分析模型的应用方法。。

本文档来自技高网...

【技术保护点】

1.一种文档版面分析模型训练方法，其特征在于，包括以下步骤：

2.如权利要求1所述的文档版面分析模型训练方法，其特征在于：

3.如权利要求2所述的文档版面分析模型训练方法，其特征在于：

4.如权利要求1至3任一项所述的文档版面分析模型训练方法，其特征在于：

5.如权利要求4所述的文档版面分析模型训练方法，其特征在于：

6.如权利要求4所述的文档版面分析模型训练方法，其特征在于：

7.一种文档版面分析模型的应用方法，其特征在于，包括以下步骤：

8.计算机装置，包括处理器与存储器，其特征在于：

9.计算机可读存储介质，其特征在于：

【技术特征摘要】

1.一种文档版面分析模型训练方法，其特征在于，包括以下步骤：

2.如权利要求1所述的文档版面分析模型训练方法，其特征在于：

3.如权利要求2所述的文档版面分析模型训练方法，其特征在于：

4.如权利要求1至3任一项所述的文档版面分析模型训练方法，其特征在于：

5.如权...

【专利技术属性】
技术研发人员：吴勇涛，吴士泓，王瑞平，
申请(专利权)人：远光软件股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人