【技术实现步骤摘要】
一种表格信息处理方法、装置、处理设备及可读存储介质
[0001]本专利技术涉及人工智能
,特别是指一种表格信息处理方法、装置、处理设备及可读存储介质。
技术介绍
[0002]表格是较为常见的数据展示形式,其结构清晰、时效性强,通常可作为搜索引擎和智能对话系统的重要答案来源。
[0003]在具体应用中,为了智能化理解表格信息,可以通过抽取表格要素信息,来提取表格的单元格表头和数据属性,以及判断表头之间的层级关系。
[0004]然而,现有的表格信息处理方法难以对表格中丰富的结构关系进行处理,导致抽取得到的表格要素信息的准确率较低。
技术实现思路
[0005]本专利技术的目的是提供一种表格信息处理方法、装置、处理设备及可读存储介质,解决了现有方法难以准确抽取表格要素信息的问题。
[0006]为达到上述目的,本专利技术的实施例提供一种表格信息处理方法,包括:获取目标表格中至少一个单元格的起止行列信息,所述起止行列信息包括以下至少一项:起始行信息、终止行信息、起始列信息和终止列信息;基于所 ...
【技术保护点】
【技术特征摘要】
1.一种表格信息处理方法,其特征在于,包括:获取目标表格中至少一个单元格的起止行列信息,所述起止行列信息包括以下至少一项:起始行信息、终止行信息、起始列信息和终止列信息;基于所述起止行列信息,对每一所述单元格进行特征提取,获得每一所述单元格对应的第一特征信息,所述第一特征信息用于对所述单元格进行分类。2.根据权利要求1所述的方法,其特征在于,所述基于所述起止行列信息,对每一所述单元格进行特征提取,获得每一所述单元格对应的第一特征信息,包括:获取所述目标表格的表格图像和所述至少一个单元格的坐标信息;根据所述坐标信息,对所述表格图像进行预处理,获得每一所述单元格对应的单元格图像;基于所述单元格图像和所述起止行列信息,针对每一所述单元格进行特征编码,获得每一所述单元格对应的第一特征信息。3.根据权利要求1所述的方法,其特征在于,在所述获得每一所述单元格对应的第一特征信息之后,所述方法还包括:获取所述目标表格的总行数和总列数;根据所述总行数、所述总列数和所述起止行列信息,生成所述目标表格对应的文档结构信息;根据所述文档结构信息,对所述第一特征信息进行特征增强处理,获得第二特征信息。4.根据权利要求3所述的方法,其特征在于,所述根据所述总行数、所述总列数和所述起止行列信息,生成所述目标表格对应的文档结构信息,包括:根据所述总行数、总列数和所述起止行列信息,确定第一单元格和第二单元格之间的D个位置相关维度信息,其中,所述第一单元格和所述第二单元格为所述目标表格中的任意两个单元格,D为正整数;根据所述位置相关维度信息,生成N*N*D的关系权重矩阵,将所述关系权重矩阵作为文档结构信息,N为所述目标表格中的单元格总数,N为正整数;其中,所述位置相关维度信息包括以下至少一项:起始行维度信息,用于指示所述第一单元格的起始行和所述第二单元格的起始行之间的关系;终止行维度信息,用于指示所述第一单元格的终止行和所述第二单元格的终止行之间的关系;起始列维度信息,用于指示所述第一单元格的起始列和所述第二单元格的起始列之间的关系;终止列维度信息,用于指示所述第一单元格的终止列和所述第二单元格的终止列之间的关系;行维度信息,用于指示所述目标表格中,所述第一单元格所在的行和所述第二单元格所在的行之间的关系;列维度信息,用于指示所述目标表格中,所述第一单元格所在的列和所述第二单元格所在的列之间的关系。5.根据权利要求4所述的方法,其特征在于,所述根据所述总行数、总列数和所述起止
行列信息,确定第一单元格和第二单元格之间的D个位置相关维度信息,包括以下至少一项:根据所述第一单元格的起始行和所述第二单元格的起始行之间的差值及所述总行数,确定所述起始行维度信息;根据所述第一单...
【专利技术属性】
技术研发人员:吴秦龙,
申请(专利权)人:中国移动通信集团有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。