一种国际物流表单模板识别方法、装置及相关设备制造方法及图纸

技术编号:37457987 阅读:40 留言:0更新日期:2023-05-06 09:30
本申请公开了一种国际物流表单模板识别方法、装置及相关设备,该方法包括:对待识别的国际物流表单进行文字块提取,得到多个文字块;基于各文字块的文本,将各文字块与模板库中的各标准键名进行匹配,得到多个候选键名;基于各候选键名的位置,确定多组键名对矢量;将各键名对矢量与模板库中的各模板的标准键名对矢量进行匹配,得到各模板相对于各键名对矢量的相似度值;基于各模板相对于各键名对矢量的相似度值,确定所述待识别的国际物流表单的模板;其中,所述模板库预先存储有各模板的标准键名及标准键名对矢量,所述标准键名及标准键名对矢量为从各预设的模板中提取得到的。本申请可以略过局部差异而准确识别出表单所属的模板。属的模板。属的模板。

【技术实现步骤摘要】
一种国际物流表单模板识别方法、装置及相关设备


[0001]本申请涉及表单识别
,更具体地说,是涉及一种国际物流表单模板识别方法、装置及相关设备。

技术介绍

[0002]国际物流表单有别于其他行业表单的特殊性在于,同一种场景下的表单,来自不同公司的表格具有非常相似的项目名称(键名)和位置顺序,但平面距离的绝对位置又会伴随表格内容的变化而变化(如图1、图2中{}标识的自由表格部分),同时,在文件模板流转过程中,局部的键名又会伴随委托代理层层转包而被再次编辑,包括添加、修改、合并、删除等操作,导致并非所有键名均保持一致。为了能够在海量模板中高效识别出文件所属的模板类型,需要分辨出文档结构中布局上的差异,同时需要保证局部差异在计算中不会影响到整体的判断。

技术实现思路

[0003]有鉴于此,本申请提供了一种国际物流表单模板识别方法、装置及相关设备,以解决至少一个上面提出的问题。
[0004]为实现上述目的,本申请第一方面提供了一种国际物流表单模板识别方法,包括:
[0005]对待识别的国际物流表单进行文字块提取,得本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种国际物流表单模板识别方法,其特征在于,包括:对待识别的国际物流表单进行文字块提取,得到多个文字块以及每一文字块的文本和位置;基于各文字块的文本,将各文字块与模板库中的各标准键名进行匹配,得到多个候选键名;基于各候选键名的位置,确定多组键名对矢量,每一组键名对矢量包括两个候选键名以及所述两个候选键名的位置关系;将各键名对矢量与模板库中的各模板的标准键名对矢量进行匹配,得到各模板相对于各键名对矢量的相似度值;基于各模板相对于各键名对矢量的相似度值,确定所述待识别的国际物流表单的模板;其中,所述模板库预先存储有各模板的标准键名及标准键名对矢量,所述标准键名及标准键名对矢量为从各预设的模板中提取得到的。2.根据权利要求1所述的方法,其特征在于,对待识别的国际物流表单进行文字块提取,得到多个文字块以及每一文字块的文本和位置的过程,包括:将待识别的国际物流表单转换成PDF文件;利用PDF解析器获取所述PDF文件的各文字块以及每一文字块的文本和位置。3.根据权利要求1所述的方法,其特征在于,基于各文字块的文本,将各文字块与模板库中的各标准键名进行匹配,得到多个候选键名的过程,包括:针对每一文字块,获取所述文字块的文本与模板库中的每一标准键名的文本编辑距离,得到所述文字块与模板库中每一标准键名的相似度值;将相似度值大于预设相似度阈值的文字块确定为候选键名。4.根据权利要求1所述的方法,其特征在于,基于各候选键名的位置,确定多组键名对矢量的过程,包括:基于各候选键名的位置,获取在同一水平基线上的第一候选键名,并将各第一候选键名两两组合成水平键名对;针对每一水平键名对,基于所述水平键名对中的两个候选键名在水平基线上的左右关系,生成键名对矢量;基于各候选键名的位置,获取在同一竖直基线上的第二候选键名,并将各第二候选键名两两组合成竖直键名对;针对每一竖直键名对,基于所述竖直键名对中的两个候选键名在竖直基线上的上下关系,生成键名对矢量。5.根据权利要求4所述的方法,其特征在于,基于所述水平键名对中的两个候选键名在水平基线上的左右关系,生成键名对矢量的过程,包括:基于所述水平键名对中的两个候选键名在水平基线上的左右关系,确定左部键名和右部键名...

【专利技术属性】
技术研发人员:卞晓瑜肖鸣林高磊
申请(专利权)人:壹沓科技上海有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1