【技术实现步骤摘要】
一种基于深度学习的PDF文档段落自动提取系统及装置
本说明书实施例涉及计算机
,尤其涉及一种基于深度学习的PDF文档段落自动提取系统及装置。
技术介绍
PDF(PortableDocumentFormat的简称,意为“便携式文档格式”),是由AdobeSystems用于与应用程序、操作系统、硬件无关的方式进行文件交换所发展出的文件格式。PDF会再现原稿的每一个字符、颜色以及图像,但是PDF存储是非结构化的数据存储格式,没有记录文档的逻辑结构,没有段落、表格等逻辑元素。在对PDF格式的文档进行内容抽取时,或对PDF格式的文档进行拷贝粘贴时,几乎不可避免的出现这样的现象:看来明明是一段完整的文字段落,但抽取出来时,被抽取的内容被划分成了多个块;选中段落,拷贝,粘贴出来时,同样的问题,完整的一段文字被分成了若干部分,并非期望的整体。行不再是完整的行,而段也不再是正常的段。目前,对PDF的段落解析主要通过以二进制文本解析方式读取PDF文档,二进制数据中包含了PDF文件结构,通过文件结构中的交叉引用表去提取段落。 ...
【技术保护点】
1.一种基于深度学习的PDF文档段落自动提取系统,其特征在于,所述系统包括:/n获得一定量的初始PDF文档数据,将所述初始PDF文档数据转化为二次PDF文档,其中,所述二次PDF文档中加入段落结构标记符号;/n根据所述二次PDF文档中加入的所述段落结构标记符号与PDF文档解析工具,确定所述二次PDF文档的段落属性特征;/n判断所述段落属性特征对所述二次PDF文档的段落结构的影响程度大小;/n当所述段落属性特征对所述二次PDF文档的段落结构的影响程度高于预定影响因子指数时,获得关键段落属性特征;/n根据所述关键段落属性特征、所述初始PDF文档数据构建多层感知机神经网络模型,获 ...
【技术特征摘要】
1.一种基于深度学习的PDF文档段落自动提取系统,其特征在于,所述系统包括:
获得一定量的初始PDF文档数据,将所述初始PDF文档数据转化为二次PDF文档,其中,所述二次PDF文档中加入段落结构标记符号;
根据所述二次PDF文档中加入的所述段落结构标记符号与PDF文档解析工具,确定所述二次PDF文档的段落属性特征;
判断所述段落属性特征对所述二次PDF文档的段落结构的影响程度大小;
当所述段落属性特征对所述二次PDF文档的段落结构的影响程度高于预定影响因子指数时,获得关键段落属性特征;
根据所述关键段落属性特征、所述初始PDF文档数据构建多层感知机神经网络模型,获得最终提取模型,其中,所述最终提取模型提取所述初始PDF文档数据的段落。
2.如权利要求1所述的系统,其特征在于,所述将所述初始PDF文档数据转化为二次PDF文档,包括:
将所述初始PDF文档数据一次转化为可编辑文档;
二次转化所述可编辑文档,其中,在所述可编辑文档中加入段落结构标记符号获得所述二次PDF文档。
3.如权利要求1所述的系统,其特征在于,所述根据所述二次PDF文档中加入的所述段落结构标记符号与PDF文档解析工具,确定所述二次PDF文档的段落属性特征,包括:
根据所述PDF文档解析工具解析所述二次PDF文档,获得所述二次PDF文档的类别信息;
根据所述段落结构标记符号与所述类别信息,构造所述二次PDF文档的行属性列表与段落标签数据集;
训练所述二次PDF文档的行属性列表与段落标签数据集,获得所述二次PDF文档的段落属性特征。
4.如权利要求3所述的系统,其特征在于,所述判断所述段落属性特征对所述二次PDF文档的段落结构的影响程度大小,包括:
从所述PDF文档解析工具解析的所述二次PDF文档中抽取部分所述二次PDF文档获得验证文档;
根据主成分分析方法计算获得所述段落属性特征对所述验证文档的段落结构的影响程度大小。
5.如权利要求3所述的系统,其特征在于,...
【专利技术属性】
技术研发人员:宋永生,吴义黄,王楠,王逸飞,
申请(专利权)人:江苏联著实业股份有限公司,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。