一种基于视觉深度学习的文档信息碎片化抽取方法技术

技术编号:23766352 阅读:21 留言:0更新日期:2020-04-11 20:02
本发明专利技术公开了一种基于视觉深度学习的文档信息碎片化抽取方法,包括:抽取多份人工标注的文档数据,作为训练集;选取样本PDF,并将选取的样本PDF进行每页图片转储;将训练集和样本PDF中的信息进行对应,使用深度卷积神经网络进行深度特征学习;将未标注的目标文档进行每页图片转储;对转储的每页图片通过神经网络模型进行目标检测和标注、内容提取及图片转储;优化采样区域,即在输入图像中均匀采样一小部分像素并以采样像素中心,在不同尺度下生成不同数量和不同大小的锚框。通过对PDF文档进行每页图片化,之后运用图像识别、目标检测技术对图片进行处理,实现带较明显特征的论文、期刊等内容的标题、段落、公式、图片、表格进行标注和提取的功能。

A method of document information fragmentation extraction based on visual deep learning

【技术实现步骤摘要】
一种基于视觉深度学习的文档信息碎片化抽取方法
本专利技术涉及计算机视觉
,尤其涉及一种基于视觉深度学习的文档信息碎片化抽取方法。
技术介绍
现有随着全球数字化和信息化的发展,在越来越多的领域和场合下电子文档逐渐取代了纸质文档,在信息大爆炸的当今社会,人们创建了海量的电子文档,在诸多文档格式中,PDF文件格式可以将文字、字型、格式、颜色及独立于设备和分辨率的图形图像等封装在一个文件中。该格式文件还可以包含超文本链接、声音和动态影像等电子信息,支持特长文件,集成度和安全可靠性都较高。在当今追求效率和精度的需求下,以文档为粒度的信息单元显露出不足,于是以碎片化的形式进行存储和展现的方式应运而生,碎片化有三个潜在特性,1、可以直接检索到一个段落标题或者图表标题,打开直接定位到这个部分阅读,检索更精确,阅读更方便;2、碎片化后可以为实现碎片内容的动态重组做准备,例如很多用户的需求可以把问题现状,研究现状,对策建议等动态挑选重组成一个新的文字内容,大量节省以前自己批量找片段的功能;3、碎片化之后更方便在多个终端阅读,速度更快,解决以往PDF打开或者阅读器打开慢,多终端不便阅读的问题。一般对PDF文档进行碎片化的方法有两种,1、通过人工标注,辅以工具,生成包含碎片信息的轻量级文件和图片,该方法因为自始至终都有人工参与,能最大限度保证原始文档和碎片化单元视觉上的一致性和正确性;2、通过解析PDF内部元素,通过各种算法和分析,将独立的单个字符、图元信息,组合拼装成人眼视觉上看到的标题、段落、图片等碎片化单元,该方法虽然能够精确拿到PDF内部基础元素的信息,但在组合拼装环节,缺乏通用的方法,特别是不同版式的内容,人工介入的程度还是很高。为了实现上述文档信息碎片化的功能,并将人工参与程度降至最低,本文研制了一种通过图像识别和目标检测的方法,自顶向下地对整页文档内容进行识别、分类和标注。
技术实现思路
为解决上述技术问题,本专利技术的目的是提供一种基于视觉深度学习的文档信息碎片化抽取方法。本专利技术的目的通过以下的技术方案来实现:一种基于视觉深度学习的文档信息碎片化抽取方法,包括:a抽取多份人工标注的文档数据,作为训练集;b选取样本PDF,并将选取的样本PDF进行每页图片转储;c将训练集和样本PDF中的信息进行对应,使用深度卷积神经网络进行深度特征学习;d将未标注的目标文档进行每页图片转储;e对转储的每页图片通过神经网络模型进行目标检测和标注、内容提取及图片转储;f优化采样区域,即在输入图像中均匀采样一小部分像素并以采样像素中心,在不同尺度下生成不同数量和不同大小的锚框。与现有技术相比,本专利技术的一个或多个实施例可以具有如下优点:通过对PDF文档进行每页图片化,之后运用图像识别、目标检测技术对图片进行处理,实现带较明显特征的论文、期刊等内容的标题、段落、公式、图片、表格进行标注和提取的功能。附图说明图1是基于视觉深度学习的文档信息碎片化抽取方法流程图;图2是已标注的数据样本图示;图3是单射多框检测模型结构图;图4是FastR-CNN模型结构图;图5是FasterR-CNN模型结构图;图6是用训练后的模型对未标注文档进行识别的结果图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚,下面将结合实施例及附图对本专利技术作进一步详细的描述。如图1所示,为基于视觉深度学习的文档信息碎片化抽取方法流程,包括以下步骤:步骤10抽取多份人工标注的文档数据,作为训练集;步骤20选取样本PDF,并将选取的样本PDF进行每页图片转储;步骤30将训练集和样本PDF中的信息进行对应,使用深度卷积神经网络进行深度特征学习;步骤40将未标注的目标文档进行每页图片转储;步骤50对转储的每页图片通过神经网络模型进行目标检测和标注、内容提取及图片转储;步骤60优化采样区域,即在输入图像中均匀采样一小部分像素并以采样像素中心,在不同尺度下生成不同数量和不同大小的锚框。上述步骤10中人工标注的文档数据包括已人工标注的段落标题、段落内容、图片、公式、表格五种类别信息的内容和所属页码、页面坐标、缩放精度。上述步骤30中使用深度卷积神经网络进行深度特征学习的过程包括以下步骤:步骤301目标检测算法会在输入图像中采样大量区域,判断这些区域是否包含我们感兴趣的目标,并调整区域边缘从而更精确地预测目标的真实边界。我们使用锚框算法,它以每个像素为中心生成多个大小和宽高比不同的边界框,定义为锚框(anchorbox)。假设输入图像高为h,宽为w。分别以图像的每个像素为中心生成不同形状的锚框。设大小为s∈(0,1]且宽高比为r>0,则锚框的宽和高分别为和当中心位置给定时,已知宽和高的锚框是确定的。分别设定好一组大小s1,...sn和一组宽高比r1,...rm。如果以每个像素为中心使用所有的大小和宽高比组合,输入图像将一共得到whnm个锚框,但计算复杂度容易过高。因此我们只对包含s1或r1的大小与宽高比的组合感兴趣,即(s1,r1),(s1,r2),...,(s1,rm),(s2,r1),(s3,r1),...(sn,r1)。最后以相同像素为中心的锚框数量为n+m-1。对整个输入图像,一共生成wh(n+m-1)个锚框。步骤302量化锚框和真实边界框之间的相似度,使用Jaccard系数,该系数衡量两个集合的相似度。给定集合A和B,它们的Jaccard系数为二者交集大小除以二者并集大小:步骤303在训练集中,我们将每个锚框视为一个训练样本。为了训练目标检测模型,需要为每个锚框标注两类标签,一是锚框所含目标的类别(标题、段落、公式、图片、表格),二是真实边界框相对锚框的偏移量。目标检测时,首先生成多个锚框,然后为每个锚框预测类别及偏移量,根据预测的偏移量调整锚框位置从而得到预测边界框,最后筛选需要输出的预测边界框。在训练集中,每页图像已标注了真实边界框的位置和类别,生成锚框后,主要依据与锚框相似的真实边界框的位置和类别信息为锚框标注。步骤304输出预测边界框,当锚框数量较多时,同一个目标上可能会输出较多相似的预测边界框,为使结果简洁,可以使用非极大值抑制(non-maximumsuppression,NMS)方法移除相似的预测边界框。对于一个预测边界框B,模型会计算各个类别的预测概率,设其中最大的预测概率为p,该概率对应的类别即B的预测类别,称p为预测边界框B的置信度。同一个图像上,将预测类别非背景的预测边界框按照置信度从高到低排序,得到列表L。从L中选取置信度最高的预测边界框B1最为基准,将所有与B1的交并比大于某阈值的非基准预测边界框从L中移除。此时L保留了置信度最高的预测边界框并移除了与其相似的其他预测边界框,然后从L中选取置信度第二高的预测边界框B2作为基准,将所有与B2的交并比大于某阈值的非基准预测边界框从L中移除,重复此过本文档来自技高网
...

【技术保护点】
1.一种基于视觉深度学习的文档信息碎片化抽取方法,其特征在于,所述方法包括:/na抽取多份人工标注的文档数据,作为训练集;/nb选取样本PDF,并将选取的样本PDF进行每页图片转储;/nc将训练集和样本PDF中的信息进行对应,使用深度卷积神经网络进行深度特征学习;/nd将未标注的目标文档进行每页图片转储;/ne对转储的每页图片通过神经网络模型进行目标检测和标注、内容提取及图片转储;/nf优化采样区域,即在输入图像中均匀采样一小部分像素并以采样像素中心,在不同尺度下生成不同数量和不同大小的锚框。/n

【技术特征摘要】
1.一种基于视觉深度学习的文档信息碎片化抽取方法,其特征在于,所述方法包括:
a抽取多份人工标注的文档数据,作为训练集;
b选取样本PDF,并将选取的样本PDF进行每页图片转储;
c将训练集和样本PDF中的信息进行对应,使用深度卷积神经网络进行深度特征学习;
d将未标注的目标文档进行每页图片转储;
e对转储的每页图片通过神经网络模型进行目标检测和标注、内容提取及图片转储;
f优化采样区域,即在输入图像中均匀采样一小部分像素并以采样像素中心,在不同尺度下生成不同数量和不同大小的锚框。


2.如权利要求1所述的基于视觉深度学习的文档信息碎片化抽取方法,其特征在于,所述步骤a中文档数据包括:已人工标注的段落标题、段落内容、图片、公式、表格五种类别信息的内容和所属页码、页面坐标、缩放精度。


3.如权利要求1所述的基于视觉深度学习的文档信息碎片化抽取方法,其特征在于,所述步骤c中深度特征学习包括:
c1判断目标检测算法在输入图像中采样的大量区域是否包含我们感兴趣的目...

【专利技术属性】
技术研发人员:罗晓斌段飞虎印东敏蔡郧尹青云冯自强张宏伟
申请(专利权)人:同方知网北京技术有限公司同方知网数字出版技术股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1