System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及金融科技及人工智能,尤其涉及一种电子票据信息的获取方法、装置、设备及存储介质。
技术介绍
1、目前的ocr(光学字符识别)技术常见应用包含对路牌、车牌、招牌、银行卡、身份证等的识别,但是,现有技术中ocr通常具有被识别体大、背景单一、返回字段少的特点。虽然在ai的赋能下,目前基于深度学习的ocr检测效果已优于传统ocr,然而在多文本、中低分辨率、复杂背景、干扰信息多的场景下表现仍有待提升。
2、在金融科技行业,例如银行、保险等应用场景下,对电子票据(例如,银行票据或者商业票据等)信息获取的场景较多,不论是客户还是业务人员都渴望一种能够自动返回电子票据重要字段的方法来替代人工输入。目前,面对一张字段多、分辨率不高、可能存在干扰背景的电子票据图像,并不能准确无误的获取所有关键字段的信息。
技术实现思路
1、本申请的主要目的在于提供一种电子票据信息的获取方法、装置、设备及存储介质,可以解决现有技术中的无法准确无误的获取电子票据中所有关键字段的信息的技术问题。
2、为实现上述目的,本申请第一方面提供一种电子票据信息的获取方法,该方法包括:
3、通过图像文本识别技术对目标票据图片进行图像文本识别,得到文本识别结果,其中,文本识别结果包括从目标票据图片中识别到的每个已识别文本段的文本内容和文本位置,其中,已识别文本段包括字段和字段取值;
4、根据目标票据图片的目标票据类型,获取目标票据图片的标准文本段规则和非标准文本段规则;
6、根据非标准文本段规则中非标准文本段周边的参考文本段分布以及文本位置,从已识别文本段的文本内容中确定出目标非标准字段的字段取值。
7、为实现上述目的,本申请第二方面提供一种电子票据信息的获取装置,该装置包括:
8、图像文本识别模块,用于通过图像文本识别技术对目标票据图片进行图像文本识别,得到文本识别结果,其中,文本识别结果包括从目标票据图片中识别到的每个已识别文本段的文本内容和文本位置,其中,已识别文本段包括字段和字段取值;
9、规则匹配模块,用于根据目标票据图片的目标票据类型,获取目标票据图片的标准文本段规则和非标准文本段规则;
10、第一信息获取模块,用于根据标准文本段规则中标准文本段的文本书写规则,从已识别文本段的文本内容中确定出目标标准字段的字段取值;
11、第二信息获取模块,用于根据非标准文本段规则中非标准文本段周边的参考文本段分布以及文本位置,从已识别文本段的文本内容中确定出目标非标准字段的字段取值。
12、为实现上述目的,本申请第三方面提供一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时,使得处理器执行以下步骤:
13、通过图像文本识别技术对目标票据图片进行图像文本识别,得到文本识别结果,其中,文本识别结果包括从目标票据图片中识别到的每个已识别文本段的文本内容和文本位置,其中,已识别文本段包括字段和字段取值;
14、根据目标票据图片的目标票据类型,获取目标票据图片的标准文本段规则和非标准文本段规则;
15、根据标准文本段规则中标准文本段的文本书写规则,从已识别文本段的文本内容中确定出目标标准字段的字段取值;
16、根据非标准文本段规则中非标准文本段周边的参考文本段分布以及文本位置,从已识别文本段的文本内容中确定出目标非标准字段的字段取值。
17、为实现上述目的,本申请第四方面提供一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,计算机程序被处理器执行时,使得处理器执行以下步骤:
18、通过图像文本识别技术对目标票据图片进行图像文本识别,得到文本识别结果,其中,文本识别结果包括从目标票据图片中识别到的每个已识别文本段的文本内容和文本位置,其中,已识别文本段包括字段和字段取值;
19、根据目标票据图片的目标票据类型,获取目标票据图片的标准文本段规则和非标准文本段规则;
20、根据标准文本段规则中标准文本段的文本书写规则,从已识别文本段的文本内容中确定出目标标准字段的字段取值;
21、根据非标准文本段规则中非标准文本段周边的参考文本段分布以及文本位置,从已识别文本段的文本内容中确定出目标非标准字段的字段取值。
22、采用本申请实施例,具有如下有益效果:
23、本申请提供一种通过通用的图片文本识别技术对电子票据图片中的各个文本段进行文本检测和识别,得到各个文本段的文本内容和文本位置,再根据标准文本段规则先确定标准字段的字段取值,再根据非标准文本段规则中非标准文本段与周边的参考文本段之间的位置关系,确定出非标准字段的字段取值,进而精准的获取电子票据中各个目标字段的字段取值。本实施例使用通用的图片文本识别技术即可,不需要额外的获取电子票据对图片文本识别模型进行训练,减少了训练成本和开销,缩短了图片文本识别的时间成本,且,支持轻量级的图片文本识别,适用于各种应用场景,尤其是满足银行等金融科技领域中算力不足的应用场景和开发条件。另外,本实施例通过同种类型的电子票据中文本段之间固定的位置关系以及标准文本段的特性,可以快速定位非标准文本段,进而实现快速精准获取各个字段的字段取值,提高电子票据中字段取值获取的准确率。
本文档来自技高网...【技术保护点】
1.一种电子票据信息的获取方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述根据所述非标准文本段规则中非标准文本段周边的参考文本段分布以及所述文本位置,从所述已识别文本段的文本内容中确定出目标非标准字段的字段取值,包括:
3.根据权利要求1所述的方法,其特征在于,在所述从所述已识别文本段的文本内容中确定出目标标准字段的字段取值之前,所述方法还包括:
4.根据权利要求1所述的方法,其特征在于,若所述图像文本识别技术为基于OCR技术的图像文本抽取技术,则所述通过图像文本识别技术对目标票据图片进行图像文本识别,得到文本识别结果,包括:
5.根据权利要求1所述的方法,其特征在于,在得到字段取值之后,所述方法还包括:
6.根据权利要求1所述的方法,其特征在于,在进行图像文本识别之前,所述方法还包括:
7.根据权利要求6所述的方法,其特征在于,所述对原始票据图片进行图像预处理,包括:
8.一种电子票据信息的获取装置,其特征在于,所述装置包括:
9.一种计算机可读存储介
10.一种计算机设备,包括存储器和处理器,其特征在于,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1至7中任一项所述方法的步骤。
...【技术特征摘要】
1.一种电子票据信息的获取方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述根据所述非标准文本段规则中非标准文本段周边的参考文本段分布以及所述文本位置,从所述已识别文本段的文本内容中确定出目标非标准字段的字段取值,包括:
3.根据权利要求1所述的方法,其特征在于,在所述从所述已识别文本段的文本内容中确定出目标标准字段的字段取值之前,所述方法还包括:
4.根据权利要求1所述的方法,其特征在于,若所述图像文本识别技术为基于ocr技术的图像文本抽取技术,则所述通过图像文本识别技术对目标票据图片进行图像文本识别,得到文本识别结果,包括:
5.根据权利要求1所述的方法,其特征在...
【专利技术属性】
技术研发人员:高尚彬,孙铁,苏志锋,
申请(专利权)人:平安银行股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。