The bill information extraction method, device, computer equipment and storage medium provided by the embodiment of the present invention. The embodiment of the present invention uses OCR or CTPN technology to identify information items in bills. Each information item has a rectangular area. The identified information item includes the first rectangular area of the background information item and the second rectangular area of the feature information item. By covering the first rectangular area, the background information is removed, and the target area is initially located. The relative position relationship of two rectangular regions determines the location of the target information, and finally extracts the target information. Removing the background information, removing a lot of unnecessary information, reducing the rectangular area that needs to be located, improving the efficiency of information extraction, locating the target information initially, first finding the approximate position, then locating the target information accurately from the approximate position, avoiding the problem of inaccurate location caused by locating the target information directly in many rectangular areas.
【技术实现步骤摘要】
票据信息提取方法、装置、计算机设备及存储介质
本专利技术涉及信息处理
,尤其涉及一种票据信息提取方法、装置、计算机设备及存储介质。
技术介绍
目前提取票据中的信息的方法主要有两种:1、对票据上每一项信息的信息框都进行定位,而后从所有信息框中定位需要识别信息的信息框位置,最后利用文本识别技术识别出信息框中的文本信息;2、对票据上每一项信息的信息框都进行定位,先通过找到信息名称的信息框,再根据信息名称的信息框找到对应的特征值的信息框,最后识别特征值的信息框中的文本信息,即特征信息。以上两种方法比较适用于信息内容较少的票据,对于信息内容较多的票据,识别需要消耗的时间较长,因为信息内容越多,信息框越多,从较多信息框中定位需要识别信息的信息框,需要消耗更多计算资源和计算时间,且存在定位不准确的情况,信息识别的效率非常低。
技术实现思路
本专利技术实施例提供了一种票据信息提取方法、装置、计算机设备及存储介质,以提高票据信息的识别效率。第一方面,本专利技术实施例提供了一种票据信息提取方法,该方法包括:将票据图像中的每一项信息所在位置划为矩形区域,所述票据图像中的信息包括底版信 ...
【技术保护点】
1.一种票据信息提取方法,其特征在于,包括:将票据图像中的每一项信息所在位置划为矩形区域,所述票据图像中的信息包括底版信息和特征信息,所述矩形区域包括所述底版信息对应的第一矩形区域和所述特征信息对应的第二矩形区域;从所有矩形区域中识别所述底版信息所在的第一矩形区域;覆盖所述第一矩形区域以得到目标图像;依据预设票据模板中各第一预设区域的划分比例将所述目标图像划分为若干第二预设区域,其中,所述预设票据模板的信息布局与所述票据图像的信息布局一致,每个第二预设区域包含多个第二矩形区域;根据预设定位规则从所述若干第二预设区域中获取需要提取的目标信息所在的目标区域;根据所述目标区域中各 ...
【技术特征摘要】
1.一种票据信息提取方法,其特征在于,包括:将票据图像中的每一项信息所在位置划为矩形区域,所述票据图像中的信息包括底版信息和特征信息,所述矩形区域包括所述底版信息对应的第一矩形区域和所述特征信息对应的第二矩形区域;从所有矩形区域中识别所述底版信息所在的第一矩形区域;覆盖所述第一矩形区域以得到目标图像;依据预设票据模板中各第一预设区域的划分比例将所述目标图像划分为若干第二预设区域,其中,所述预设票据模板的信息布局与所述票据图像的信息布局一致,每个第二预设区域包含多个第二矩形区域;根据预设定位规则从所述若干第二预设区域中获取需要提取的目标信息所在的目标区域;根据所述目标区域中各个第二矩形区域之间的相对位置关系确定所述目标信息所在的目标矩形区域;识别所述目标矩形区域中的目标信息。2.根据权利要求1所述的票据信息提取方法,其特征在于,所述票据图像为具有单侧底版信息的票据图像;所述从所有矩形区域中识别所述底版信息所在的第一矩形区域,包括:获取每一个矩形区域对应的横坐标;从所获得的所有横坐标中获取最小横坐标;将所述最小横坐标与其它横坐标进行比较,以获取与所述最小横坐标的差值在第一误差范围内的横坐标作为目标横坐标;将所述最小横坐标及所述目标横坐标分别对应的矩形区域确定为所述第一矩形区域。3.根据权利要求1所述的票据信息提取方法,其特征在于,所述票据图像为具有双侧底版信息的票据图像;所述从所有矩形区域中识别所述底版信息所在的第一矩形区域,包括:识别所述票据图像中票据标题所在的矩形区域作为标题矩形区域;获取所述标题矩形区域的中心线,所述中心线垂直于所述票据标题的文本方向;依据所述中心线将所述票据图像分为左侧区域和右侧区域;获取所述左侧区域中每一个矩形区域对应的横坐标;从所获得的所有横坐标中获取最小横坐标;将所述最小横坐标与其它横坐标进行比较,以获取与所述最小横坐标的差值在第一误差范围内的横坐标作为第一目标横坐标;将所述最小横坐标、所述第一目标横坐标对应的矩形区域确定为所述左侧区域的底版信息对应的第一矩形区域;获取所述中心线对应的横坐标;获取所述右侧区域中每一矩形区域对应的横坐标;分别将所述右侧区域中每一矩形区域对应的横坐标与所述中心线对应的横坐标进行比较,以获取与所述中心线对应的横坐标的差值在第二误差范围内的横坐标作为第二目标横坐标;将所述第二目标横坐标对应的矩形区域确定为所述右侧区域的底版信息对应的第一矩形区域。4.根据权利要求1所述的票据信息提取方法,其特征在于,所述根据所述目标区域中各个第二矩形区域之间的相对位置关系确定所述目标信息所在的目标矩形区域,包括:获取所述目标区域中各个第二矩形区域的位置坐标;逐一将其中一第二矩形区域作为参考矩形区域,根据其它第二矩形区域的位置坐标与所述参考矩形区域的位置坐标的关系分析所述参考矩形区域周围的矩形分布情况;若所述参考矩形区域周围的矩形分布情况符合预设布局记录,将所述参考矩形区域确定为所述目标矩形区域。5.根据权利要求1所述的票据信息提取方法,其特征在于,所述将票据图像中的每一项信息所在位置划为矩形区域之前,还包括:将所述票据图像与预设票据模板进行对比;若所述票据图像的文本方向与所述预设票据模板的文本方向不一致,获取所述票据图像的文本方向与所述预设票据模板的文本方向之间的夹角角度;将所述票据图像旋转所述夹角角度,以使所述票据图像...
【专利技术属性】
技术研发人员:邢欣来,
申请(专利权)人:中国平安财产保险股份有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。