一种基于视觉深度学习的文档信息碎片化抽取方法技术

技术编号：23766352 阅读：21 留言：0更新日期：2020-04-11 20:02

本发明专利技术公开了一种基于视觉深度学习的文档信息碎片化抽取方法，包括：抽取多份人工标注的文档数据，作为训练集；选取样本PDF，并将选取的样本PDF进行每页图片转储；将训练集和样本PDF中的信息进行对应，使用深度卷积神经网络进行深度特征学习；将未标注的目标文档进行每页图片转储；对转储的每页图片通过神经网络模型进行目标检测和标注、内容提取及图片转储；优化采样区域，即在输入图像中均匀采样一小部分像素并以采样像素中心，在不同尺度下生成不同数量和不同大小的锚框。通过对PDF文档进行每页图片化，之后运用图像识别、目标检测技术对图片进行处理，实现带较明显特征的论文、期刊等内容的标题、段落、公式、图片、表格进行标注和提取的功能。

A method of document information fragmentation extraction based on visual deep learning

全部详细技术资料下载

【技术实现步骤摘要】
一种基于视觉深度学习的文档信息碎片化抽取方法
本专利技术涉及计算机视觉
，尤其涉及一种基于视觉深度学习的文档信息碎片化抽取方法。
技术介绍
现有随着全球数字化和信息化的发展，在越来越多的领域和场合下电子文档逐渐取代了纸质文档，在信息大爆炸的当今社会，人们创建了海量的电子文档，在诸多文档格式中，PDF文件格式可以将文字、字型、格式、颜色及独立于设备和分辨率的图形图像等封装在一个文件中。该格式文件还可以包含超文本链接、声音和动态影像等电子信息，支持特长文件，集成度和安全可靠性都较高。在当今追求效率和精度的需求下，以文档为粒度的信息单元显露出不足，于是以碎片化的形式进行存储和展现的方式应运而生，碎片化有三个潜在特性，1、可以直接检索到一个段落标题或者图表标题，打开直接定位到这个部分阅读，检索更精确，阅读更方便；2、碎片化后可以为实现碎片内容的动态重组做准备，例如很多用户的需求可以把问题现状，研究现状，对策建议等动态挑选重组成一个新的文字内容，大量节省以前自己批量找片段的功能；3、碎片化之后更方便在多个终端阅读，速度更快，解决以往PDF打开或者阅读器打开慢，多终端不便阅读的问题。一般对PDF文档进行碎片化的方法有两种，1、通过人工标注，辅以工具，生成包含碎片信息的轻量级文件和图片，该方法因为自始至终都有人工参与，能最大限度保证原始文档和碎片化单元视觉上的一致性和正确性；2、通过解析PDF内部元素，通过各种算法和分析，将独立的单个字符、图元信息，组合拼装成人眼视觉上看到的标题、段落、图片等碎片化单元，该方法虽然能...

【技术保护点】
1.一种基于视觉深度学习的文档信息碎片化抽取方法，其特征在于，所述方法包括：/na抽取多份人工标注的文档数据，作为训练集；/nb选取样本PDF，并将选取的样本PDF进行每页图片转储；/nc将训练集和样本PDF中的信息进行对应，使用深度卷积神经网络进行深度特征学习；/nd将未标注的目标文档进行每页图片转储；/ne对转储的每页图片通过神经网络模型进行目标检测和标注、内容提取及图片转储；/nf优化采样区域，即在输入图像中均匀采样一小部分像素并以采样像素中心，在不同尺度下生成不同数量和不同大小的锚框。/n

【技术特征摘要】
1.一种基于视觉深度学习的文档信息碎片化抽取方法，其特征在于，所述方法包括：
a抽取多份人工标注的文档数据，作为训练集；
b选取样本PDF，并将选取的样本PDF进行每页图片转储；
c将训练集和样本PDF中的信息进行对应，使用深度卷积神经网络进行深度特征学习；
d将未标注的目标文档进行每页图片转储；
e对转储的每页图片通过神经网络模型进行目标检测和标注、内容提取及图片转储；
f优化采样区域，即在输入图像中均匀采样一小部分像素并以采样像素中心，在不同尺度下生成不同数量和不同大小的锚框。

2.如权利要求1所述的基于视觉深度学习的文档信息碎片化抽取方法，其特征在于，所述步骤a中文档数据包括：已人工标注的段落标题、段落内容、图片、公式、表格五种类别信息的内容和所属页码、页面坐标、缩放精度。

3.如权利要求1所述的基于视觉深度学习的文档信息碎片化抽取方法，其特征在于，所述步骤c中深度特征学习包括：
c1判断目标检测算法在输入图像中采样的大量区域是否包含我们感兴趣的目...

【专利技术属性】
技术研发人员：罗晓斌，段飞虎，印东敏，蔡郧，尹青云，冯自强，张宏伟，
申请(专利权)人：同方知网北京技术有限公司，同方知网数字出版技术股份有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人