【技术实现步骤摘要】
基于深度学习的发票文本信息识别方法
本专利技术涉及票据处理领域,特别涉及基于深度学习的发票文本信息识别方法。
技术介绍
在票据识别方面,随着社会发展和经济进步,票据的识别检测工作量也逐步变大,智能化识别票据成为迫切的需求。在过去,票据上的各种关键字段信息全部由人工筛选识别,这种单一繁复的工作耗时巨大,随着深度学习方法的进步,票据的文本可以通过神经网络来进行通用识别和通用检测。但是此处存在一个缺陷,具体就是文本检测后的结果,仍然需要人工来进行筛选和修改,这仍然需要耗时耗力。产生缺陷的另一个原因是票据多种多样。票据上信息的复杂性成为了票据检测识别的瓶颈,包括字段文字类型的多样,字段边框的不定长宽比以及待检测识别的票据种类繁多等。主要体现为:文字类型有不同语言,不同符号,字段可能很长或是很短,票据种类包括统一发票,机票,火车票等等。随着深度学习技术发展,此技术正在被应用于越来越多的领域,工程、信息技术、金融、医疗等等。在财务电子化领域中,深度学习技术可以用于报表、发票、文件的识别和检测。但是由于票据的名录多种多样,票据内容 ...
【技术保护点】
1.基于深度学习的发票文本信息识别方法,其特征在于,包括如下步骤:/n步骤一:将图片导入第一深度学习网络进行通用文字检测;/n步骤二:结合步骤一的检测结果对原图进行裁剪;/n步骤三:将裁剪后的图片送入第二深度学习网络进行通用文字识别;/n步骤四:结合通用文字检测识别结果进行后处理操作,所述后处理包括通用后处理,所述通用后处理包括正则匹配、范围检索、信息提取及坐标边界;/n所述正则匹配的步骤包括:对于给定的待匹配字段和相应的文本信息,制定正则表达式,然后在步骤二得到的文本内容列表中进行正则匹配,完成匹配后获取该文本的文本框序列号;/n所述范围检索的步骤包括:给定一个检索范围I ...
【技术特征摘要】
1.基于深度学习的发票文本信息识别方法,其特征在于,包括如下步骤:
步骤一:将图片导入第一深度学习网络进行通用文字检测;
步骤二:结合步骤一的检测结果对原图进行裁剪;
步骤三:将裁剪后的图片送入第二深度学习网络进行通用文字识别;
步骤四:结合通用文字检测识别结果进行后处理操作,所述后处理包括通用后处理,所述通用后处理包括正则匹配、范围检索、信息提取及坐标边界;
所述正则匹配的步骤包括:对于给定的待匹配字段和相应的文本信息,制定正则表达式,然后在步骤二得到的文本内容列表中进行正则匹配,完成匹配后获取该文本的文本框序列号;
所述范围检索的步骤包括:给定一个检索范围I,在正则匹配得到的序列号前后I个单位检索字段对应的文本内容;
所述信息提取的步骤包括:对检索的文本内容,首先提取其中的字母或数字类型的字符,并定义其为有用文本信息,通过有用文本信息再结合正则表达式进行进一步的文本匹配;
所述坐...
【专利技术属性】
技术研发人员:杨懿龄,肖欣庭,池明辉,刘楚雄,
申请(专利权)人:四川长虹电器股份有限公司,
类型:发明
国别省市:四川;51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。