一种PDF中表格信息的抽取方法和系统技术方案

技术编号:34372419 阅读:12 留言:0更新日期:2022-07-31 11:49
本发明专利技术涉及深度学习技术领域,提供一种PDF中表格信息的抽取方法和系统。方法包括:获取PDF文件,并识别文件中包括表格的图像页;分割图像页得到多个表格单元,输入运行表格结构识别模型,得到目标序列;将表格单元的文本识别结果整合至根据目标序列中,得到html代码形式的表格抽取结果。本发明专利技术通过基于图像分割得到的表格单元进行表格结构框架识别,即采用多示例学习训练得到的模型进行表格结构框架识别,能够更为有效、精准地识别抽取PDF中的表格信息;同时,基于html序列的表格结构框架输出格式更为契合多示例学习训练得到的模型,针对表格信息抽取任务、尤其是复杂场景下的表格信息抽取任务具有更好的效率和准确性。息抽取任务具有更好的效率和准确性。息抽取任务具有更好的效率和准确性。

A method and system for extracting table information from PDF

【技术实现步骤摘要】
一种PDF中表格信息的抽取方法和系统


[0001]本专利技术涉及深度学习
,尤其涉及一种PDF中表格信息的抽取方法和系统。

技术介绍

[0002]对于PDF中表格数据信息的处理与应用在很多实际生产场景中有着广泛的需求,近年来,随着基于人工智能的计算机视觉 (Computer Vision)任务的相关算法技术蓬勃发展,利用AI技术进行PDF表格信息的抽取是一个十分具有价值和意义的方向。
[0003]在实际生产中,往往我们需要对PDF中的表格数据进行系统地分析与整理,通常一个PDF文件中就会有多个表格信息,如果是人工进行整理需要耗费大量的人力成本与时间成本,是一个及其枯燥乏味的工作,因此运用技术手段采用自动化或者半自动化的方式进行PDF表格信息的抽取成为了一个重要的研究课题,而如何提供一种高效准确的PDF中表格信息的抽取方法和系统成为了业内亟需解决的技术问题。

技术实现思路

[0004]本专利技术提供一种PDF中表格信息的抽取方法和系统,用以解决现有技术中PDF中表格信息提取所需的人力成本与时间成本高的缺陷,针对PDF中的表格信息实现更为高效准确的抽取。
[0005]本专利技术提供一种PDF中表格信息的抽取方法,包括:
[0006]获取PDF文件,并识别所述PDF文件中包括表格的图像页;
[0007]分割所述图像页得到多个表格单元,并以所述表格单元为输入运行表格结构识别模型,得到目标序列;所述目标序列为基于表格结构框架的html序列;
[0008]将所述表格单元的文本识别结果整合至根据所述目标序列中,得到html代码形式的表格抽取结果;
[0009]所述表格结构识别模型是通过样本训练得到的模型。
[0010]根据本专利技术提供的一种PDF中表格信息的抽取方法,所述表格结构识别模型是编码器

解码器结构的模型;
[0011]所述编码器能够提取所述表格单元的局域特征、全局特征以及关联特征,并进行编码得到特征提取结果;
[0012]所述解码器能够根据所述特征提取结果得到表格结构框架。
[0013]根据本专利技术提供的一种PDF中表格信息的抽取方法,所述表格结构识别模型是基于自注意力机制的模型;
[0014]所述编码器能够提取源序列元素的局域特征、全局特征、关联特征以及元素序列特征;所述源序列包括有序的所述多个表格单元;所述源序列元素是指所述表格单元,或者拆分所述表格单元得到的字符或字符串;
[0015]所述解码器能够:
[0016]根据所述源序列元素的局域特征、全局特征、关联特征以及元素序列特征得到所
述目标序列的第1个元素特征;
[0017]根据所述源序列元素的局域特征、全局特征、关联特征、元素序列特征,以及所述目标序列的第1个至第i

1个元素特征,得到所述目标序列的第i个元素特征;
[0018]根据所述目标序列的元素特征得到所述目标序列的元素;
[0019]所述目标序列元素为html字符或字符串。
[0020]根据本专利技术提供的一种PDF中表格信息的抽取方法,所述获取 PDF文件,并识别所述PDF文件中包括的表格的图像页的步骤包括:
[0021]获取PDF文件;
[0022]根据预设的表格识别规则和/或预设的PDF识别模型,识别所述PDF文件中包括表格的图像页;
[0023]所述PDF识别模型是以PDF文件为输入、以所述PDF文件中包括表格的图像页为输出、基于YOLOv5算法的模型通过样本和标签训练得到的。
[0024]根据本专利技术提供的一种PDF中表格信息的抽取方法,所述将所述表格单元的文本识别结果整合至根据所述目标序列中,得到html 代码形式的表格抽取结果的步骤包括:
[0025]基于所述表格单元运行文本识别模型,得到所述表格单元的文本识别结果;
[0026]根据所述目标序列确定表格结构,并将所述文本识别结果填充至所述表格结构,得到html代码形式的表格抽取结果;
[0027]所述文本识别模型是以图片格式的所述表格单元为输入、以所述表格单元的文本识别结果为输出的、基于CTPN算法的模型通过样本和标签训练得到的。
[0028]根据本专利技术提供的一种PDF中表格信息的抽取方法,所述根据所述目标序列确定表格结构,并将所述文本识别结果填充至所述表格结构,得到html代码形式的表格抽取结果的步骤包括:
[0029]根据所述目标序列确定至少一个表格结构;所述表格结构的数量与所述PDF文件中包括的表格数量相同;
[0030]确定所述文本识别结果中的文本与所述表格结构间的映射关系,并根据所述映射关系填充所述文本至所述表格结构,得到html代码形式的表格抽取结果;所述html代码形式的表格抽取结果的数量与所述表格结构的数量相同。
[0031]本专利技术还提供一种PDF中表格信息的抽取系统,包括:
[0032]获取模块,用于获取PDF文件,并识别所述PDF文件中包括表格的图像页;
[0033]分割模块,用于分割所述图像页得到多个表格单元,并以所述表格单元为输入运行表格结构识别模型,得到目标序列;所述目标序列为基于表格结构框架的html序列;
[0034]抽取模块,用于将所述表格单元的文本识别结果整合至根据所述目标序列中,得到html代码形式的表格抽取结果;
[0035]所述表格结构识别模型是通过样本训练得到的模型。
[0036]本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述PDF中表格信息的抽取方法的步骤。
[0037]本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述 PDF中表格信息的抽取方法的步骤。
[0038]本专利技术还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述PDF中表格信息的抽取方法的步骤。
[0039]本专利技术提供的PDF中表格信息的抽取方法和系统,通过基于图像分割得到的表格单元进行表格结构框架识别,即采用多示例学习训练得到的模型进行表格结构框架识别,能够更为有效、精准地识别抽取PDF中的表格信息;同时,基于html序列的表格结构框架输出格式更为契合多示例学习训练得到的模型,针对表格信息抽取任务、尤其是复杂场景下的表格信息抽取任务具有更好的效率和准确性。
附图说明
[0040]为了更清楚地说明本专利技术或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0041]图1是本专利技术提供的PDF中表格信息的抽取方法的流程示意图;
[0042]图2是本发本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种PDF中表格信息的抽取方法,其特征在于,包括:获取PDF文件,并识别所述PDF文件中包括表格的图像页;分割所述图像页得到多个表格单元,并以所述表格单元为输入运行表格结构识别模型,得到目标序列;所述目标序列为基于表格结构框架的html序列;将所述表格单元的文本识别结果整合至根据所述目标序列中,得到html代码形式的表格抽取结果;所述表格结构识别模型是通过样本训练得到的模型。2.根据权利要求1所述的PDF中表格信息的抽取方法,其特征在于,所述表格结构识别模型是编码器

解码器结构的模型;所述编码器能够提取所述表格单元的局域特征、全局特征以及关联特征,并进行编码得到特征提取结果;所述解码器能够根据所述特征提取结果得到表格结构框架。3.根据权利要求2所述的PDF中表格信息的抽取方法,其特征在于,所述表格结构识别模型是基于自注意力机制的模型;所述编码器能够提取源序列元素的局域特征、全局特征、关联特征以及元素序列特征;所述源序列包括有序的所述多个表格单元;所述源序列元素是指所述表格单元,或者拆分所述表格单元得到的字符或字符串;所述解码器能够:根据所述源序列元素的局域特征、全局特征、关联特征以及元素序列特征得到所述目标序列的第1个元素特征;根据所述源序列元素的局域特征、全局特征、关联特征、元素序列特征,以及所述目标序列的第1个至第i

1个元素特征,得到所述目标序列的第i个元素特征;根据所述目标序列的元素特征得到所述目标序列的元素;所述目标序列元素为html字符或字符串。4.根据权利要求1所述的PDF中表格信息的抽取方法,其特征在于,所述获取PDF文件,并识别所述PDF文件中包括的表格的图像页的步骤包括:获取PDF文件;根据预设的表格识别规则和/或预设的PDF识别模型,识别所述PDF文件中包括表格的图像页;所述PDF识别模型是以PDF文件为输入、以所述PDF文件中包括表格的图像页为输出、基于YOLOv5算法的模型通过样本和标签训练得到的。5.根据权利要求1所述的PDF中表格信息的抽取方法,其特征在于,所述将所述表格单元的文本识别结果整...

【专利技术属性】
技术研发人员:王则远刘鹏
申请(专利权)人:灵犀量子北京医疗科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1