一种表格解析方法、装置、设备和存储介质制造方法及图纸

技术编号:37956933 阅读:10 留言:0更新日期:2023-06-30 09:30
本申请公开了一种表格解析方法、装置、设备和存储介质,该方法包括:获取待解析的目标表格;确定目标表格中包含的若干表头单元格和若干数据单元格;基于若干表头单元格中的文本信息,得到各表头单元格间的层级关系;基于各表头单元格间的层级关系,得到若干数据单元格和至少一个表头单元格间的对应结果。通过上述方式,本申请能够实现对各种表格的解析,适用性和泛化能力强。性和泛化能力强。性和泛化能力强。

【技术实现步骤摘要】
一种表格解析方法、装置、设备和存储介质


[0001]本申请涉及表格解析
,特别是涉及一种表格解析方法、装置、设备和存储介质。

技术介绍

[0002]表格是一种非常常见的数据展示方式,其直观性有利于结构化信息的表达,但在一些表格问答等需要对表格进行解析的场景中,待解析的表格的类型较多,而现有方式中只能够对某种类型的表格进行解析,例如是预先制定表格解析规则的方式,要为不同类型的表格制定不同的解析规则,一种规则不能实现各种表格的适用性解析,表格解析的适用性差。
[0003]因此,如何实现各种表格的适用性解析意义重大。

技术实现思路

[0004]本申请主要解决的技术问题是提供一种表格解析方法、装置、设备和存储介质,能够实现对各种表格的解析,适用性和泛化能力强。
[0005]为解决上述技术问题,本申请采用的一个技术方案是:提供一种表格解析方法,该方法包括:获取待解析的目标表格;确定目标表格中包含的若干表头单元格和若干数据单元格;基于若干表头单元格中的文本信息,得到各表头单元格间的层级关系;基于各表头单元格间的层级关系,得到若干数据单元格和至少一个表头单元格间的对应结果。
[0006]其中,确定目标表格中包含的若干表头单元格和若干数据单元格,包括:基于目标表格中的各单元格中的文本信息获取各单元格的语义特征,以及基于各单元格在目标表格中的空间信息获取各单元格的空间特征;利用各单元格的语义特征和空间特征,确定各单元格的单元格类别为表格单元格还是数据单元格。
[0007]其中,基于目标表格中的各单元格中的文本信息获取各单元格的语义特征,包括:对于各单元格,对单元格的文本信息进行编码得到单元格的文本特征,并确定单元格的辅助特征,辅助特征包括以下至少一者:表征单元格的文本信息的属性的属性特征、表征单元格在目标表格中的布局信息的布局特征;利用单元格的文本特征和辅助特征,得到单元格的语义特征。
[0008]其中,文本信息的属性包括以下至少一者:文本信息的长度、文本信息是否为日期、文本信息是否为纯数字、文本信息中数字的占比、以及文本信息是否为数字开头;和/或,布局信息包括以下至少一者:单元格所处的行列、单元格的邻居单元格的数量、以及单元格包含的子单元格的数量;和/或,利用单元格的文本特征和辅助特征,得到单元格的语义特征,包括:融合单元格的文本特征和辅助特征,得到第一融合特征;对第一融合特征进行语义解析,得到单元格的语义特征。
[0009]其中,基于各单元格在目标表格中的空间信息获取各单元格的空间特征,包括:分别将各单元格作为目标单元格,构建目标单元格的图表示,目标单元格的图表示包括表示
目标单元格的目标节点、以及分别表示目标单元格的至少一个邻近单元格的至少一个邻近节点,各邻近节点分别采用连接边与目标节点连接,且邻近节点与目标节点的连接边的类型匹配于对应的邻近单元格与目标单元格之间的位置关系;对目标单元格的图表示进行编码,得到目标单元格的空间特征。
[0010]其中,基于若干表头单元格中的文本信息,得到各表头单元格间的层级关系,包括:基于各表头单元格中的文本信息,得到各表头单元格的表头类别;利用各表头单元格的表头类别,确定表头单元格间的层级关系;和/或,基于至少两个表头单元格中的文本信息,得到至少两个表头单元格的文本表示,并基于各目标表头单元格对的文本表示确定各目标表头单元对的层级关系,目标表头单元格对包含至少两个表头单元格中位于同一行或同一列的两个表头单元格。
[0011]其中,表头单元格的表头类别包括表项名、表项、属性名称、合计、标题中至少两者;和/或,基于各表头单元格中的文本信息,得到各表头单元格的表头类别,包括:对于各表头单元格,将表头单元格的语义特征、空间特征以及表头单元格的类别特征进行融合,得到表头单元格的第二融合特征,表头单元格的语义特征是基于表头单元格中的文本信息确定的,表头单元格的类别特征是对表头单元格对应的单元格类别确定;对表头单元格的第二融合特征进行分类,得到表头单元格的表头类别。
[0012]其中,基于各表头单元格间的层级关系,得到若干数据单元格和至少一个表头单元格间的对应结果,包括:根据各表头单元格间的层级关系,确定各表头单元格在目标表格中的数据解析方向;对于各表头单元格,根据数据解析方向,确定目标表格中位于表头单元格的数据解析方向上的至少一个数据单元格和表头单元格的对应关系。
[0013]其中,根据各表头单元格间的层级关系,确定各表头单元格在目标表格中的数据解析方向,包括:分别将各表头单元格作为待解析单元格;响应于待解析单元格与位于同一行的邻居表头单元格间的层级关系为并列关系,将待解析单元格的数据解析方向确定为向下或向上;响应于待解析单元格与位于同一列的邻居表头单元格间的层级关系为并列关系,将待解析单元格的数据解析方向确定为向右或向左。
[0014]其中,获取待解析的目标表格,包括:获取至少一个原始表格;从预设数据库中查找出与待解析表格对应的正则表达式;响应于原始表格的表格名称与正则表达式的相似度达到预设阈值,确定原始表格为目标表格。
[0015]为解决上述技术问题,本申请采用的另一个技术方案是:提供一种表格解析装置,该装置包括:获取模块,用于获取待解析的目标表格;确定模块,用于确定目标表格中包含的若干表头单元格和若干数据单元格;层级关系确定模块,用于基于若干表头单元格中的文本信息,得到各表头单元格间的层级关系;对应关系确定模块,用于基于各表头单元格间的层级关系,得到若干数据单元格和至少一个表头单元格间的对应结果。
[0016]为解决上述技术问题,本申请采用的又一个技术方案是:提供一种电子设备,包括相互耦接的存储器和处理器,存储器存储有程序指令;处理器用于执行存储器中存储的程序指令,以实现上述方法。
[0017]为解决上述技术问题,本申请采用的再一个技术方案是:提供一种计算机可读存储介质,计算机可读存储介质用于存储程序指令,程序指令能够被执行以实现上述方法。
[0018]本申请的有益效果是:本申请在获取到待解析的目标表格后,先确定目标表格中
包含的若干表头单元格和若干数据单元格,然后基于若干表头单元格中的文本信息,得到各表头单元格间的层级关系,进而基于各表头单元格的层级关系,得到若干数据单元格和至少一个表头单元格间的对应结果,使表头单元格和数据单元格之间建立连接,从而实现表格的解析。相比于基于规则的表格解析方式,本申请无需为具有不同层次的各类型表格制定对应的解析规则,可直接根据得到的各表头单元格的层级关系对表格进行解析,故本申请的表格解析方式可适用于具有不同层次的各类型表格的解析(例如是层次简单的表格,以及层次复杂的组合表格和嵌套表格),适用性和泛化能力强。
附图说明
[0019]图1是本申请提供的表格解析方法一实施例的流程示意图;
[0020]图2是图1所示步骤S14一实施例的部分流程示意图;
[0021]图3是图1所示步骤S11一实施例的流程示意图;
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种表格解析方法,其特征在于,所述方法包括:获取待解析的目标表格;确定所述目标表格中包含的若干表头单元格和若干数据单元格;基于所述若干表头单元格中的文本信息,得到各所述表头单元格间的层级关系;基于各所述表头单元格间的层级关系,得到若干所述数据单元格和至少一个所述表头单元格间的对应结果。2.根据权利要求1所述的方法,其特征在于,所述确定所述目标表格中包含的若干表头单元格和若干数据单元格,包括:基于所述目标表格中的各单元格中的文本信息获取各所述单元格的语义特征,以及基于各所述单元格在所述目标表格中的空间信息获取各所述单元格的空间特征;利用各所述单元格的语义特征和空间特征,确定各所述单元格的单元格类别为表格单元格还是数据单元格。3.根据权利要求2所述的方法,其特征在于,所述基于所述目标表格中的各单元格中的文本信息获取各所述单元格的语义特征,包括:对于各所述单元格,对所述单元格的文本信息进行编码得到所述单元格的文本特征,并确定所述单元格的辅助特征,所述辅助特征包括以下至少一者:表征所述单元格的文本信息的属性的属性特征、表征所述单元格在所述目标表格中的布局信息的布局特征;利用所述单元格的文本特征和辅助特征,得到所述单元格的语义特征。4.根据权利要求3所述的方法,其特征在于,所述文本信息的属性包括以下至少一者:所述文本信息的长度、所述文本信息是否为日期、所述文本信息是否为纯数字、所述文本信息中数字的占比、以及所述文本信息是否为数字开头;和/或,所述布局信息包括以下至少一者:所述单元格所处的行列、所述单元格的邻居单元格的数量、以及所述单元格包含的子单元格的数量;和/或,所述利用所述单元格的文本特征和辅助特征,得到所述单元格的语义特征,包括:融合所述单元格的文本特征和辅助特征,得到第一融合特征;对所述第一融合特征进行语义解析,得到所述单元格的语义特征。5.根据权利要求2所述的方法,其特征在于,所述基于各所述单元格在所述目标表格中的空间信息获取各所述单元格的空间特征,包括:分别将各所述单元格作为目标单元格,构建所述目标单元格的图表示,所述目标单元格的图表示包括表示所述目标单元格的目标节点、以及分别表示所述目标单元格的至少一个邻近单元格的至少一个邻近节点,各所述邻近节点分别采用连接边与所述目标节点连接,且所述邻近节点与所述目标节点的连接边的类型匹配于对应的所述邻近单元格与所述目标单元格之间的位置关系;对所述目标单元格的图表示进行编码,得到所述目标单元格的空间特征。6.根据权利要求1所述的方法,其特征在于,所述基于所述若干表头单元格中的文本信息,得到各所述表头单元格间的层级关系,包括:基于各所述表头单元格中的文本信息,得到各所述表头单元格的表头类别;利用各所述表头单元格的表头类别,确定所述表头单元格间的层级关系;和/或,基于至少两个所述表头单元格中的文本信息,得到至少两个所述表头单元格的文本表
示,并基于各目标表头单元格...

【专利技术属性】
技术研发人员:何莹李直旭郑新周维梅林海陈志刚
申请(专利权)人:科大讯飞苏州科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1