表格信息提取方法以及相关设备技术

技术编号:37703973 阅读:62 留言:0更新日期:2023-06-01 23:51
本申请实施例公开了一种表格信息提取方法、表格信息提取设备以及计算机可读存储介质,用于在提高对待提取表格进行信息提取的提取效率的情况下,提取表格信息。本申请实施例方法包括:获得待提取表格,根据预设匹配方法识别待提取表格的表头信息,基于表头信息确定待提取表格的表体信息,从表头信息中提取目标表头信息,及从表体信息中提取目标表体信息。及从表体信息中提取目标表体信息。及从表体信息中提取目标表体信息。

【技术实现步骤摘要】
表格信息提取方法以及相关设备


[0001]本申请实施例涉及表格信息提取领域,更具体的,是表格信息提取方法、表格信息提取设备以及计算机可读存储介质。

技术介绍

[0002]在企业寄件的业务场景中,考虑到其寄件量较大的因素,快递公司会在价格上给予其一定优惠,经双方协商后,快递公司会为企业提供一份有别于官网价格的快递价格表,因此,需要企业对快递价格表这一待提取表格进行信息提取,以录入系统另行维护,并用于后续计算成本和对帐使用。其中,快递价格表比如为顺丰公司提供的快递价格表,企业需要从其中提取出主要信息,比如快递公司、业务类型、目的地、首重重量、首重价格、续重单位、续重价格等,并将提取的主要信息录入系统。
[0003]现有的对待提取表格进行信息提取的方法是,先获得客户端(快递公司)发送的待提取表格(快递价格表),然后比对快递价格表,手工逐行将快递价格表中的寄件地区、首重价格、续重价格等信息录入企业寄件系统,以完成对待提取表格的信息提取。
[0004]但是,当待提取表格的内容较多时,比如在目的地/流向较多的情况下(按城市展开,可以多达几百本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种表格信息提取方法,其特征在于,包括:获得待提取表格;根据预设匹配方法识别所述待提取表格的表头信息;基于所述表头信息确定所述待提取表格的表体信息;从所述表头信息中提取目标表头信息,及从所述表体信息中提取目标表体信息。2.根据权利要求1所述的方法,其特征在于,所述根据预设匹配方法识别所述待提取表格的表头信息之前,所述方法还包括:对所述待提取表格进行预处理,得到预处理后的待提取表格;基于所述预处理后的待提取表格确定所述待提取表格的有效信息;所述根据预设匹配方法识别所述待提取表格的表头信息,包括:根据预设匹配方法识别所述有效信息的表头信息。3.根据权利要求2所述的方法,其特征在于,所述对所述待提取表格进行预处理,得到预处理后的待提取表格,包括:基于岛屿问题算法,对所述待提取表格的单元格数据进行0

1转换处理,得到0

1转换处理后的待提取表格;所述基于所述预处理后的待提取表格确定所述待提取表格的有效信息,包括:基于所述0

1转换处理后的待提取表格确定面积最大的数据框;将所述数据框内的数据确定为所述有效信息。4.根据权利要求1所述的方法,其特征在于,所述根据预设匹配方法识别所述待提取表格的表头信息,包括:根据预设表头行正则匹配规则对所述待提取表格进行匹配;若存在目标行满足所述预设表头行正则匹配规则,则将所述目标行确定为表头行;根据所述表头行确定所述表头信息。5.根据权利要求4所述的方法,其特征在于,所述根据所述表头行确定所述表头信息,包括:针对所述表头行对应的每个单元格,若所述单元格在横轴上的投影上的投影包括至少一个单元格,和/或纵轴上的投影包括至少一个单元格,则确定所述单元格存在上下文关系;基于所述单元格的上下文关系确定所述单元格的上下文内容;根据每个单元格对应的上下文内容确定所述表头信息。6.根据权利要求1所述...

【专利技术属性】
技术研发人员:吴桂业
申请(专利权)人:深圳前海百递网络有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1