【技术实现步骤摘要】
文本处理方法、装置、电子设备及存储介质
[0001]本公开涉及图像处理
,尤其涉及计算机视觉领域,更具体地,本公开提供了一种文本处理方法、装置、电子设备、存储介质以及计算机程序产品。
技术介绍
[0002]金融、零售等行业会使用大量票据,一些数票据存在内容相似,但版面不同的情况。例如金融行业使用的银行回单,不同银行回单里包括相同字段,多种银行回单中包括“付款人”、“收款人”、“账户”等字段,但不同银行的银行回单各不相同,有时同一家银行在不同地区的多个分行所使用的银行回单也不相同。为了知晓票据涉及的业务信息,需要将大量票据中的内容进行汇总。
技术实现思路
[0003]本公开提供了一种文本处理方法、装置、电子设备、存储介质以及计算机程序产品。
[0004]根据本公开的一方面,提供了一种文本处理方法,包括确定待处理文本图像包括的多个字段与多个预定字段名彼此之间的相似度;将所述多个字段中相似度大于相似度阈值的字段,确定为目标字段名;从所述多个字段中除所述目标字段名之外的M个剩余字段中,确定与所述目标字段名相对应的目标字段值,其中,M≥1;以及输出所述目标字段名与所述目标字段值之间的对应关系。
[0005]根据本公开的另一方面,提供了一种文本处理装置,包括相似度确定模块、第一目标字段名确定模块、目标字段值确定模块以及输出模块。相似度确定模块用于确定待处理文本图像包括的多个字段与多个预定字段名彼此之间的相似度。第一目标字段名确定模块用于将所述多个字段中相似度大于相似度阈值的字段,确定为目标字 ...
【技术保护点】
【技术特征摘要】
1.一种文本处理方法,包括:确定待处理文本图像包括的多个字段与多个预定字段名彼此之间的相似度;将所述多个字段中相似度大于相似度阈值的字段,确定为目标字段名;从所述多个字段中除所述目标字段名之外的M个剩余字段中,确定与所述目标字段名相对应的目标字段值,其中,M≥1;以及输出所述目标字段名与所述目标字段值之间的对应关系。2.根据权利要求1所述的方法,还包括,在确定为目标字段名之后:从所述多个字段中确定N个目标分组字段以及N个重复字段,其中,N≥2;以及根据所述待处理文本图像中所述N个目标分组字段的位置信息和所述N个重复字段的位置信息,对所述N个目标分组字段与所述N个重复字段进行分组,得到N个字段组,其中,所述N个字段组中的每个字段组包括一个目标分组字段和一个重复字段。3.根据权利要求2所述的方法,其中,所述根据所述待处理文本图像中所述N个目标分组字段的位置信息和所述N个重复字段的位置信息,对所述N个目标分组字段与所述N个重复字段进行分组,得到N个字段组包括:确定多个分组方案,其中,所述多个分组方案中的每个分组方案与N个候选字段组相关;针对所述每个分组方案,确定所述待处理文本图像中与所述N个候选字段组分别对应的字段距离,基于所述字段距离之和确定总距离;其中,与每个候选字段组对应的字段距离是该候选字段组中的目标分组字段和重复字段之间的距离;以及将与所述总距离最小的分组方案相关的N个候选字段组,确定为所述N个字段组。4.根据权利要求1所述的方法,其中,从所述多个字段中除所述目标字段名之外的M个剩余字段中,确定与所述目标字段名相对应的目标字段值包括:从所述M个剩余字段中,确定所述待处理文本图像中与所述目标字段名之间的距离小于或等于预定距离的字段,得到至少一个候选字段;以及根据所述目标字段名的类型和所述至少一个候选字段的类型,从所述至少一个候选字段中确定所述目标字段值。5.根据权利要求1所述的方法,还包括对所述目标字段值进行以下操作中的至少一个:根据所述目标字段值的类型,修改所述目标字段值的格式;以及在确定与同一个所述目标字段名具有对应关系的两个目标字段值分别为汉字数码和阿拉伯数字,且所述汉字数码的数值和阿拉伯数字的数值不同的情况下,利用所述汉字数码的数值修正所述阿拉伯数字的数值。6.根据权利要求1所述的方法,还包括:将所述待处理文本图像包括的多个原始字段中与所述多个预定字段名中任一预定字段名相同的字段,确定为所述目标字段名;以及将所述多个原始字段中除所述目标字段名之外的字段,确定为所述待处理文本图像包括的多个字段。7.根据权利要求1所述的方法,还包括:对所述待处理文本图像进行识别,得到多个分词;以及根据所述待处理文本图像中所述多个分词彼此之间的距离和所述多个分词中的每个
分词的语义信息,将所述多个分词中的至少两个分词组合为字段,得到所述多个字段。8.一种文本处理装置,包括:相似度确定模块,用于确定待处理文本图像包括的多个字段与多个预定字段名彼此之间的相似度;第一目标字段名确定模块,用于将所述多个字段中相似度大于相似度阈值的字段,确定为目标字段名;目标字段值确定模块,用于从所述多个字段中除所述目标字段名之外的M个剩余字段中,确定与所述目标字段名相对应的目标字段值,其...
【专利技术属性】
技术研发人员:向宇波,王佳阳,何烩烩,沈俊宇,苏崔聪,张红光,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。