本发明专利技术提供了一种基于深度学习的PDF文档段落自动提取系统及装置,通过获得一定量的初始PDF文档数据,将所述初始PDF文档数据转化为二次PDF文档;根据二次PDF文档中加入的段落结构标记符号与PDF文档解析工具,确定二次PDF文档的段落属性特征;判断所述段落属性特征对所述二次PDF文档的段落结构的影响程度大小;当所述影响程度高于预定影响因子指数时,获得关键段落属性特征;根据所述关键段落属性特征、所述初始PDF文档数据构建多层感知机神经网络模型,获得最终提取模型,所述最终提取模型提取初始PDF文档数据的段落,达到了提高PDF文档段落提取的准确性,泛化性强,能够适用于不同的复杂PDF文档的技术效果。
An automatic extraction system and device of PDF document paragraphs based on deep learning
【技术实现步骤摘要】
一种基于深度学习的PDF文档段落自动提取系统及装置
本说明书实施例涉及计算机
,尤其涉及一种基于深度学习的PDF文档段落自动提取系统及装置。
技术介绍
PDF(PortableDocumentFormat的简称,意为“便携式文档格式”),是由AdobeSystems用于与应用程序、操作系统、硬件无关的方式进行文件交换所发展出的文件格式。PDF会再现原稿的每一个字符、颜色以及图像,但是PDF存储是非结构化的数据存储格式,没有记录文档的逻辑结构,没有段落、表格等逻辑元素。在对PDF格式的文档进行内容抽取时,或对PDF格式的文档进行拷贝粘贴时,几乎不可避免的出现这样的现象:看来明明是一段完整的文字段落,但抽取出来时,被抽取的内容被划分成了多个块;选中段落,拷贝,粘贴出来时,同样的问题,完整的一段文字被分成了若干部分,并非期望的整体。行不再是完整的行,而段也不再是正常的段。目前,对PDF的段落解析主要通过以二进制文本解析方式读取PDF文档,二进制数据中包含了PDF文件结构,通过文件结构中的交叉引用表去提取段落。但本申请专利技术人在实现本申请实施例中专利技术技术方案的过程中,发现上述技术至少存在如下技术问题:现有技术中由于二进制文本解析方式读取PDF文档的准确率较低,仍存在一段文字被分成若干部分的技术问题。
技术实现思路
本说明书实施例提供及一种基于深度学习的PDF文档段落自动提取系统及装置,解决了现有技术中由于二进制文本解析方式读取PDF文档的准确率较低,仍存在一段文字被分成若干部分的技术问题,达到了提高PDF文档段落提取的准确性,避免人工设计规则逻辑的局限性,泛化性强,能够适用于不同的复杂PDF文档的技术效果。鉴于上述问题,提出了本申请实施例以便提供一种基于深度学习的PDF文档段落自动提取系统及装置。第一方面,本说明书实施例提供一种基于深度学习的PDF文档段落自动提取系统,所述系统包括:获得一定量的初始PDF文档数据,将所述初始PDF文档数据转化为二次PDF文档,其中,所述二次PDF文档中加入段落结构标记符号;根据所述二次PDF文档中加入的所述段落结构标记符号与PDF文档解析工具,确定所述二次PDF文档的段落属性特征;判断所述段落属性特征对所述二次PDF文档的段落结构的影响程度大小;当所述段落属性特征对所述二次PDF文档的段落结构的影响程度高于预定影响因子指数时,获得关键段落属性特征;根据所述关键段落属性特征、所述初始PDF文档数据构建多层感知机神经网络模型,获得最终提取模型,其中,所述最终提取模型提取所述初始PDF文档数据的段落。优选地,所述将所述初始PDF文档数据转化为二次PDF文档,包括:将所述初始PDF文档数据一次转化为可编辑文档;二次转化所述可编辑文档,且加入段落结构标记符号获得所述二次PDF文档。优选地,所述根据所述二次PDF文档中加入的所述段落结构标记符号与PDF文档解析工具,确定所述二次PDF文档的段落属性特征,包括:根据所述PDF文档解析工具解析所述二次PDF文档,获得所述二次PDF文档的类别信息;根据所述段落结构标记符号与所述类别信息,构造所述二次PDF文档的行属性列表与段落标签数据集;训练所述二次PDF文档的行属性列表与段落标签数据集,获得所述二次PDF文档的段落属性特征。优选地,所述判断所述段落属性特征对所述二次PDF文档的段落结构的影响程度大小,包括:从所述PDF文档解析工具解析的所述二次PDF文档中抽取部分所述二次PDF文档获得验证文档;根据主成分分析方法计算获得所述段落属性特征对所述验证文档的段落结构的影响程度大小。优选地,所述根据所述关键段落属性特征、所述初始PDF文档数据构建多层感知机神经网络模型,获得最终提取模型,包括:修改所述行属性列表与段落标签数据集中的行属性列表,获得训练数据集与测试数据集;将所述关键段落属性特征输入所述训练数据集,构建所述多层感知机神经网络模型;将所述初始PDF文档数据输入所述多层感知机神经网络模型,根据所述训练数据集将所述段落结构标记符号作为训练目标对所述多层感知机神经网络模型进行训练,其中,对所述多层感知机神经网络模型的训练过程中,周期性评估所述多层感知机神经网络模型在所述测试数据集的评分;当所述多层感知机神经网络模型在所述测试数据集的评分高于预定阈值时,停止对所述多层感知机神经网络模型的训练,获得最终提取模型。第二方面,本说明书实施例提供一种基于深度学习的PDF文档段落自动提取装置,所述装置包括:第一获得单元,用于获得一定量的初始PDF文档数据,将所述初始PDF文档数据转化为二次PDF文档,其中,所述二次PDF文档中加入段落结构标记符号;第一确定单元,用于根据所述二次PDF文档中加入的所述段落结构标记符号与PDF文档解析工具,确定所述二次PDF文档的段落属性特征;第一判断单元,用于判断所述段落属性特征对所述二次PDF文档的段落结构的影响程度大小;第二获得单元,用于当所述段落属性特征对所述二次PDF文档的段落结构的影响程度高于预定影响因子指数时,获得关键段落属性特征;第三获得单元,用于根据所述关键段落属性特征、所述初始PDF文档数据构建多层感知机神经网络模型,获得最终提取模型,其中,所述最终提取模型提取所述初始PDF文档数据的段落。优选地,所述第一获得单元中所述将所述初始PDF文档数据转化为二次PDF文档,包括:第一转化单元,用于将所述初始PDF文档数据一次转化为可编辑文档;第二转化单元,用于二次转化所述可编辑文档,其中,在所述可编辑文档中加入段落结构标记符号获得所述二次PDF文档。优选地,所述第一确定单元中所述根据所述二次PDF文档中加入的所述段落结构标记符号与PDF文档解析工具,确定所述二次PDF文档的段落属性特征,包括:第四获得单元,用于根据所述PDF文档解析工具解析所述二次PDF文档,获得所述二次PDF文档的类别信息;第一构造单元,用于根据所述段落结构标记符号与所述类别信息,构造所述二次PDF文档的行属性列表与段落标签数据集;第五获得单元,用于训练所述二次PDF文档的行属性列表与段落标签数据集,获得所述二次PDF文档的段落属性特征。优选地,所述第一判断单元中所述判断所述段落属性特征对所述二次PDF文档的段落结构的影响程度大小,包括:第六获得单元,用于从所述PDF文档解析工具解析的所述二次PDF文档中抽取部分所述二次PDF文档获得验证文档;第七获得单元,用于根据主成分分析方法计算获得所述段落属性特征对所述验证文档的段落结构的影响程度大小。优选地,所述第三获得单元中所述根据所述关键段落属性特征、所述初始PDF文档数据构建多层感知机神经网络模型,获得最终提取模型,包括:第八获得单元,用于修改所述行属性列表与段落标签数据集中的行属性列表,获得训练数据集与测试数据集;第一构建单元,用于将所述关键段落属性特征输入所述训练数据集,构建所述多层感知机神经本文档来自技高网...
【技术保护点】
1.一种基于深度学习的PDF文档段落自动提取系统,其特征在于,所述系统包括:/n获得一定量的初始PDF文档数据,将所述初始PDF文档数据转化为二次PDF文档,其中,所述二次PDF文档中加入段落结构标记符号;/n根据所述二次PDF文档中加入的所述段落结构标记符号与PDF文档解析工具,确定所述二次PDF文档的段落属性特征;/n判断所述段落属性特征对所述二次PDF文档的段落结构的影响程度大小;/n当所述段落属性特征对所述二次PDF文档的段落结构的影响程度高于预定影响因子指数时,获得关键段落属性特征;/n根据所述关键段落属性特征、所述初始PDF文档数据构建多层感知机神经网络模型,获得最终提取模型,其中,所述最终提取模型提取所述初始PDF文档数据的段落。/n
【技术特征摘要】
1.一种基于深度学习的PDF文档段落自动提取系统,其特征在于,所述系统包括:
获得一定量的初始PDF文档数据,将所述初始PDF文档数据转化为二次PDF文档,其中,所述二次PDF文档中加入段落结构标记符号;
根据所述二次PDF文档中加入的所述段落结构标记符号与PDF文档解析工具,确定所述二次PDF文档的段落属性特征;
判断所述段落属性特征对所述二次PDF文档的段落结构的影响程度大小;
当所述段落属性特征对所述二次PDF文档的段落结构的影响程度高于预定影响因子指数时,获得关键段落属性特征;
根据所述关键段落属性特征、所述初始PDF文档数据构建多层感知机神经网络模型,获得最终提取模型,其中,所述最终提取模型提取所述初始PDF文档数据的段落。
2.如权利要求1所述的系统,其特征在于,所述将所述初始PDF文档数据转化为二次PDF文档,包括:
将所述初始PDF文档数据一次转化为可编辑文档;
二次转化所述可编辑文档,其中,在所述可编辑文档中加入段落结构标记符号获得所述二次PDF文档。
3.如权利要求1所述的系统,其特征在于,所述根据所述二次PDF文档中加入的所述段落结构标记符号与PDF文档解析工具,确定所述二次PDF文档的段落属性特征,包括:
根据所述PDF文档解析工具解析所述二次PDF文档,获得所述二次PDF文档的类别信息;
根据所述段落结构标记符号与所述类别信息,构造所述二次PDF文档的行属性列表与段落标签数据集;
训练所述二次PDF文档的行属性列表与段落标签数据集,获得所述二次PDF文档的段落属性特征。
4.如权利要求3所述的系统,其特征在于,所述判断所述段落属性特征对所述二次PDF文档的段落结构的影响程度大小,包括:
从所述PDF文档解析工具解析的所述二次PDF文档中抽取部分所述二次PDF文档获得验证文档;
根据主成分分析方法计算获得所述段落属性特征对所述验证文档的段落结构的影响程度大小。
5.如权利要求3所述的系统,其特征在于,...
【专利技术属性】
技术研发人员:宋永生,吴义黄,王楠,王逸飞,
申请(专利权)人:江苏联著实业股份有限公司,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。