【技术实现步骤摘要】
一种表格解析方法、装置、设备和存储介质
[0001]本申请涉及表格解析
,特别是涉及一种表格解析方法、装置、设备和存储介质。
技术介绍
[0002]表格是一种非常常见的数据展示方式,其直观性有利于结构化信息的表达,但在一些表格问答等需要对表格进行解析的场景中,待解析的表格的类型较多,而现有方式中只能够对某种类型的表格进行解析,例如是预先制定表格解析规则的方式,要为不同类型的表格制定不同的解析规则,一种规则不能实现各种表格的适用性解析,表格解析的适用性差。
[0003]因此,如何实现各种表格的适用性解析意义重大。
技术实现思路
[0004]本申请主要解决的技术问题是提供一种表格解析方法、装置、设备和存储介质,能够实现对各种表格的解析,适用性和泛化能力强。
[0005]为解决上述技术问题,本申请采用的一个技术方案是:提供一种表格解析方法,该方法包括:获取待解析的目标表格;确定目标表格中包含的若干表头单元格和若干数据单元格;基于若干表头单元格中的文本信息,得到各表头单元格间的层级关系;基于各表头单元格间的层级关系,得到若干数据单元格和至少一个表头单元格间的对应结果。
[0006]其中,确定目标表格中包含的若干表头单元格和若干数据单元格,包括:基于目标表格中的各单元格中的文本信息获取各单元格的语义特征,以及基于各单元格在目标表格中的空间信息获取各单元格的空间特征;利用各单元格的语义特征和空间特征,确定各单元格的单元格类别为表格单元格还是数据单元格。
[0007]其中,基于 ...
【技术保护点】
【技术特征摘要】
1.一种表格解析方法,其特征在于,所述方法包括:获取待解析的目标表格;确定所述目标表格中包含的若干表头单元格和若干数据单元格;基于所述若干表头单元格中的文本信息,得到各所述表头单元格间的层级关系;基于各所述表头单元格间的层级关系,得到若干所述数据单元格和至少一个所述表头单元格间的对应结果。2.根据权利要求1所述的方法,其特征在于,所述确定所述目标表格中包含的若干表头单元格和若干数据单元格,包括:基于所述目标表格中的各单元格中的文本信息获取各所述单元格的语义特征,以及基于各所述单元格在所述目标表格中的空间信息获取各所述单元格的空间特征;利用各所述单元格的语义特征和空间特征,确定各所述单元格的单元格类别为表格单元格还是数据单元格。3.根据权利要求2所述的方法,其特征在于,所述基于所述目标表格中的各单元格中的文本信息获取各所述单元格的语义特征,包括:对于各所述单元格,对所述单元格的文本信息进行编码得到所述单元格的文本特征,并确定所述单元格的辅助特征,所述辅助特征包括以下至少一者:表征所述单元格的文本信息的属性的属性特征、表征所述单元格在所述目标表格中的布局信息的布局特征;利用所述单元格的文本特征和辅助特征,得到所述单元格的语义特征。4.根据权利要求3所述的方法,其特征在于,所述文本信息的属性包括以下至少一者:所述文本信息的长度、所述文本信息是否为日期、所述文本信息是否为纯数字、所述文本信息中数字的占比、以及所述文本信息是否为数字开头;和/或,所述布局信息包括以下至少一者:所述单元格所处的行列、所述单元格的邻居单元格的数量、以及所述单元格包含的子单元格的数量;和/或,所述利用所述单元格的文本特征和辅助特征,得到所述单元格的语义特征,包括:融合所述单元格的文本特征和辅助特征,得到第一融合特征;对所述第一融合特征进行语义解析,得到所述单元格的语义特征。5.根据权利要求2所述的方法,其特征在于,所述基于各所述单元格在所述目标表格中的空间信息获取各所述单元格的空间特征,包括:分别将各所述单元格作为目标单元格,构建所述目标单元格的图表示,所述目标单元格的图表示包括表示所述目标单元格的目标节点、以及分别表示所述目标单元格的至少一个邻近单元格的至少一个邻近节点,各所述邻近节点分别采用连接边与所述目标节点连接,且所述邻近节点与所述目标节点的连接边的类型匹配于对应的所述邻近单元格与所述目标单元格之间的位置关系;对所述目标单元格的图表示进行编码,得到所述目标单元格的空间特征。6.根据权利要求1所述的方法,其特征在于,所述基于所述若干表头单元格中的文本信息,得到各所述表头单元格间的层级关系,包括:基于各所述表头单元格中的文本信息,得到各所述表头单元格的表头类别;利用各所述表头单元格的表头类别,确定所述表头单元格间的层级关系;和/或,基于至少两个所述表头单元格中的文本信息,得到至少两个所述表头单元格的文本表
示,并基于各目标表头单元格...
【专利技术属性】
技术研发人员:何莹,李直旭,郑新,周维,梅林海,陈志刚,
申请(专利权)人:科大讯飞苏州科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。