表格解析方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:33713522 阅读:17 留言:0更新日期:2022-06-06 08:51
本申请为人工智能技术的自然语言处理技术领域,提供了一种表格解析方法、装置、计算机设备及存储介质,其中,该方法包括:获取含有表格的图片,确定表格在图片的位置,得到表格的表格位置;确定表格中文本信息的位置,得到文本信息的文本信息位置,根据表格位置及文本信息位置,调用预先训练好的序列标注模型预测表格中所有相邻的两个单元格的文本信息是否都不属于同一句话或同一段落;当判定表格中所有相邻的两个单元格的文本信息都不属于同一句话或同一段落时,将表格作为目标表格,解析目标表格中各个单元格的文本信息,得到结构化数据,从而利用序列标注模型对表格的全面解析和结构化数据的生成,实现了图片格式的表格的解析。析。析。

【技术实现步骤摘要】
表格解析方法、装置、计算机设备及存储介质


[0001]本申请涉及人工智能技术的自然语言处理
,具体而言,本申请涉及一种表格解析方法、装置、计算机设备及存储介质。

技术介绍

[0002]在互联网和金融等日常工作中,存在着各种各样的表格,这些表格常为图片的非结构化数据,这种非结构数据不能很好地进行提取及储存,因此需要利用表格解析方法将表格中的非结构化数据转化为结构化数据。现有的表格解析方法,还无法解析图片中的表格,具有局限性,解析效果较差。

技术实现思路

[0003]本申请的主要目的为提供一种表格解析方法、装置、计算机设备及存储介质,以解析图片中的表格,并提高解析效果。
[0004]为了实现上述专利技术目的,本申请提供一种表格解析方法,其包括:
[0005]获取含有表格的图片;
[0006]确定所述表格在所述图片的位置,得到所述表格的表格位置;
[0007]确定所述表格中文本信息的位置,得到所述文本信息的文本信息位置;
[0008]根据所述表格位置及文本信息位置,调用预先训练好的序列标注模型预测所述表格中所有相邻的两个单元格的文本信息是否都不属于同一句话或同一段落;
[0009]当判定所述表格中所有相邻的两个单元格的文本信息都不属于同一句话或同一段落时,将所述表格作为目标表格;
[0010]解析所述目标表格中各个单元格的文本信息,得到结构化数据。
[0011]进一步地,所述调用预先训练好的序列标注模型预测所述表格中所有相邻的两个单元格的文本信息是否都不属于同一句话或同一段落之后,还包括:
[0012]当判定所述表格中存在相邻的两个单元格的文本信息属于同一句话或同一段落时,将文本信息属于同一句话或同一段落的相邻的所述两个单元格进行合并,得到目标表格。
[0013]优选地,所述解析所述目标表格中各个单元格的文本信息,得到结构化数据,包括:
[0014]生成所述目标表格的行关系矩阵和列关系矩阵;
[0015]根据所述行关系矩阵构建行无向图,根据所述列关系矩阵构建列无向图;
[0016]根据所述行无向图和列无向图提取所述目标表格中每行及每列的单元格;
[0017]依次解析每行及每列的单元格中的文本信息,得到所述结构化数据。
[0018]优选地,所述获取含有表格的图片,包括:
[0019]获取输入的多媒体文件;其中,所述多媒体文件含有表格;
[0020]当确定所述多媒体文件为PDF格式时,将所述多媒体文件转换为统一的图片格式,
得到含有表格的图片。
[0021]进一步地,所述调用预先训练好的序列标注模型预测所述表格中所有相邻的两个单元格的文本信息是否都不属于同一句话或同一段落之前,还包括:
[0022]获取训练样本集;其中,所述训练样本集包括样本图片、所述样本图片中参考表格的参考表格位置、所述参考表格中文本信息的参考文本信息位置、标注了所述参考表格中每两个相邻的单元格的文本信息是否不属于同一句话或同一段落的标注信息;
[0023]将所述训练样本集输入预设的神经网络模型进行训练,得到训练结果;
[0024]判断所述训练结果是否满足要求;
[0025]当判定所述训练结果满足要求时,则将训练后的所述神经网络模型作为序列标注模型。
[0026]优选地,所述判断所述训练结果是否满足要求,包括:
[0027]根据所述训练结果及预设的损失函数计算训练后的所述神经网络模型的损失值;
[0028]判断所述损失值是否低于预设损失值;
[0029]当判定所述损失值低于预设损失值时,则确定所述训练结果满足要求。
[0030]优选地,所述调用预先训练好的序列标注模型预测所述表格中所有相邻的两个单元格的文本信息是否都不属于同一句话或同一段落,包括:
[0031]调用预先训练好的序列标注模型获取所述表格中每两个相邻的单元格的文本信息;
[0032]计算每两个相邻的单元格的文本信息的关联度;
[0033]当每两个相邻的单元格的文本信息的关联度都小于预设关联度时,则判定所述表格中所有相邻的两个单元格的文本信息都不属于同一句话或同一段落。
[0034]本申请还提供一种表格解析装置,其包括:
[0035]获取模块,用于获取含有表格的图片;
[0036]第一确定模块,用于确定所述表格在所述图片的位置,得到所述表格的表格位置;
[0037]第二确定模块,用于确定所述表格中文本信息的位置,得到所述文本信息的文本信息位置;
[0038]预测模块,用于根据所述表格位置及文本信息位置,调用预先训练好的序列标注模型预测所述表格中所有相邻的两个单元格的文本信息是否都不属于同一句话或同一段落;
[0039]判定模块,用于当判定所述表格中所有相邻的两个单元格的文本信息都不属于同一句话或同一段落时,将所述表格作为目标表格;
[0040]解析模块,用于解析所述目标表格中各个单元格的文本信息,得到结构化数据。
[0041]本申请还提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
[0042]本申请还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述任一项所述方法的步骤。
[0043]本申请所提供的一种表格解析方法、装置、计算机设备及存储介质,获取含有表格的图片,确定表格在图片的位置,得到表格的表格位置;确定表格中文本信息的位置,得到文本信息的文本信息位置,根据表格位置及文本信息位置,调用预先训练好的序列标注模
型预测表格中所有相邻的两个单元格的文本信息是否都不属于同一句话或同一段落;当判定表格中所有相邻的两个单元格的文本信息都不属于同一句话或同一段落时,将表格作为目标表格,解析目标表格中各个单元格的文本信息,得到结构化数据,从而利用序列标注模型对表格的全面解析和结构化数据的生成,实现了图片格式的表格的解析;同时在结构化数据生成之前,通过判断表格中所有相邻的两个单元格的文本信息是否属于同一段落或同一句话,从而避免解析错误,产生语义歧义,实现了表格的精准解析。
附图说明
[0044]图1为本申请一实施例的表格解析方法的流程示意图;
[0045]图2为本申请一实施例的表格解析装置的结构示意框图;
[0046]图3为本申请一实施例的计算机设备的结构示意框图。
[0047]本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
[0048]为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
[0049]本申请提出一种表格解析方法,本申请实施例可以基于本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种表格解析方法,其特征在于,包括:获取含有表格的图片;确定所述表格在所述图片的位置,得到所述表格的表格位置;确定所述表格中文本信息的位置,得到所述文本信息的文本信息位置;根据所述表格位置及文本信息位置,调用预先训练好的序列标注模型预测所述表格中所有相邻的两个单元格的文本信息是否都不属于同一句话或同一段落;当判定所述表格中所有相邻的两个单元格的文本信息都不属于同一句话或同一段落时,将所述表格作为目标表格;解析所述目标表格中各个单元格的文本信息,得到结构化数据。2.根据权利要求1所述的方法,其特征在于,所述调用预先训练好的序列标注模型预测所述表格中所有相邻的两个单元格的文本信息是否都不属于同一句话或同一段落之后,还包括:当判定所述表格中存在相邻的两个单元格的文本信息属于同一句话或同一段落时,将文本信息属于同一句话或同一段落的相邻的所述两个单元格进行合并,得到目标表格。3.根据权利要求1所述的方法,其特征在于,所述解析所述目标表格中各个单元格的文本信息,得到结构化数据,包括:生成所述目标表格的行关系矩阵和列关系矩阵;根据所述行关系矩阵构建行无向图,根据所述列关系矩阵构建列无向图;根据所述行无向图和列无向图提取所述目标表格中每行及每列的单元格;依次解析每行及每列的单元格中的文本信息,得到所述结构化数据。4.根据权利要求1所述的方法,其特征在于,所述获取含有表格的图片,包括:获取输入的多媒体文件;其中,所述多媒体文件含有表格;当确定所述多媒体文件为PDF格式时,将所述多媒体文件转换为统一的图片格式,得到含有表格的图片。5.根据权利要求1所述的方法,其特征在于,所述调用预先训练好的序列标注模型预测所述表格中所有相邻的两个单元格的文本信息是否都不属于同一句话或同一段落之前,还包括:获取训练样本集;其中,所述训练样本集包括样本图片、所述样本图片中参考表格的参考表格位置、所述参考表格中文本信息的参考文本信息位置、标注了所述参考表格中每两个相邻的单元格的文本信息是否不属于同一句话或同一段落的标注信息;将所述训练样本集...

【专利技术属性】
技术研发人员:李文斌潘新强
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1