增值税发票识别方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:22330733 阅读:50 留言:0更新日期:2019-10-19 12:23
本发明专利技术涉及增值税发票识别方法、装置、计算机设备及存储介质,该方法包括获取需要识别的增值税发票数据,以得到待识别增值税发票数据;对待识别增值税发票数据采用识别模型进行文本识别,以得到识别结果;输出识别结果。本发明专利技术通过建立识别模型,利用该识别模型对待识别增值税发票进行文本识别,其中,识别模块囊括四个子模型,识别模块基于手机拍摄得到的真实增值税发票数据集进行建模,形成分类子模型、增值税电子普通发票检测子模型、增值税普通、专用发票检测子模型、字符识别子模型,实现端到端的增值税发票快速和精准识别,整个识别模型简单,且发票识别准确率较为稳定,模型部署上线和维护均方便。

【技术实现步骤摘要】
增值税发票识别方法、装置、计算机设备及存储介质
本专利技术涉及发票识别方法,更具体地说是指增值税发票识别方法、装置、计算机设备及存储介质。
技术介绍
信息化技术在企业的日常经营、生产以及管理中发挥着日益重要的角色,无纸化线上办公成为了一种不可阻挡的趋势。增值税发票作为企业间交易的凭证,是核实业务往来以及报税的重要依据,此外,增值税发票在业务系统中录入与验证是企业财务管理过程中极其重要但又十分繁琐的任务,大批量的发票若得不到及时处理,将会导致企业财务管理中的混乱,进一步影响企业的正常经营。人工录入和采集发票信息虽能在一定程度上扩大空间,但对发票单据的数据重复人工录入耗费了业务人员的大量时间与精力,同时也无法保证发票信息采集的准确率。因此,利用智能图像识别技术,对增值税发票进行智能化的识别将大大减少业务人员的工作量,并提升业务效率。现有的发票识别方法包括发票关键字符区域的检测以及字符识别,其中,发票关键字符区域的检测所采用的方式一般为模板匹配法以及CPTN文字识别网络法,字符识别所采用的方式包括卷积神经网络以及循环神经网络,但是现有的识别方法存在网络模型复杂,训练时需要采集大量的发票数据,并进行字符区域标注,工作量非常大;模型部署上线,操作复杂,识别速度慢,导致发票录入系统的效率提升并不明显;发票识别准确率不稳定,对抵抗噪声的鲁棒性较弱;对生产环境部署的要求高,在后期的运维过程中不易维护。因此,有必要设计一种新的方法,以解决模型复杂、发票识别准确率不稳定、模型部署上线和维护不易的问题。
技术实现思路
本专利技术的目的在于克服现有技术的缺陷,提供增值税发票识别方法、装置、计算机设备及存储介质。为实现上述目的,本专利技术采用以下技术方案:增值税发票识别方法,包括:获取需要识别的增值税发票数据,以得到待识别增值税发票数据;对待识别增值税发票数据采用识别模型进行文本识别,以得到识别结果;输出所述识别结果。其进一步技术方案为:所述对待识别增值税发票数据采用识别模型进行文本识别,以得到识别结果,包括:采用识别模型内的分类子模型对待识别增值税发票数据进行分类,以得到类别;判断所述类别是否为增值税电子普通发票;若是,则采用识别模型内的增值税电子普通发票检测子模型对所述待识别增值税发票数据进行文本定位,以得到定位信息;若否,则采用识别模型内的增值税普通、专用发票检测子模型对所述待识别增值税发票数据进行文本定位,以得到定位信息;根据所述定位信息对待识别增值税发票数据进行截取,以得到文本框区域图片;采用识别模型内的字符识别子模型对所述文本框区域图片进行字符识别,以得到识别结果;其中,所述分类子模型是通过若干携带有类别标签的增值税发票数据作为第一样本集训练神经网络所得的;所述增值税电子普通发票检测子模型是通过若干携带有定位信息标签的增值税电子普通发票数据作为第二样本集训练神经网络所得的;所述增值税普通、专用发票检测子模型是通过若干携带有定位信息标签的增值税普通、专用发票数据作为第三样本集训练神经网络所得的;所述字符识别子模型是通过若干携带有字符标签的文本框区域图片作为第四样本集训练神经网络所得的。其进一步技术方案为:所述分类子模型是通过若干携带有类别标签的增值税发票数据作为第一样本集训练神经网络所得的,包括:获取若干真实场景下的增值税发票数据,以得到原始数据集;对原始数据集进行扩展处理,以得到训练集与测试集;对所述训练集进行类别标签标注,以得到第一样本集;构建优化后的YoloV3文本检测模型以及对应的第一损失函数;将第一样本集输入优化后的YoloV3文本检测模型内,并根据第一损失函数对优化后的YoloV3文本检测模型的网络参数进行训练,以得到分类子模型。其进一步技术方案为:所述增值税电子普通发票检测子模型是通过若干携带有定位信息标签的增值税电子普通发票数据作为第二样本集训练神经网络所得的,包括:获取若干增值税电子普通发票数据;对所述增值税电子普通发票数据进行文本框区域标注,以得到第二样本集;构建优化后的YoloV3文本检测模型以及对应的第二损失函数;将第二样本集输入优化后的YoloV3文本检测模型内,并根据第二损失函数对优化后的YoloV3文本检测模型的网络参数进行训练,以得到增值税电子普通发票检测子模型。其进一步技术方案为:所述增值税普通、专用发票检测子模型是通过若干携带有定位信息标签的增值税普通、专用发票数据作为第三样本集训练神经网络所得的,包括:获取若干增值税普通、专用发票数据;对所述增值税普通、专用发票数据进行文本框区域标注,以得到第三样本集;构建优化后的YoloV3文本检测模型以及对应的第三损失函数;将第三样本集输入优化后的YoloV3文本检测模型内,并根据第三损失函数对优化后的YoloV3文本检测模型的网络参数进行训练,以得到增值税普通、专用发票检测子模型。其进一步技术方案为:所述字符识别子模型是通过若干携带有字符标签的文本框区域图片作为第四样本集训练神经网络所得的,包括:获取若干文本框区域图片;对所述文本框区域图片进行字符标签标注,以得到第四样本集;构建卷积循环神经网络模型以及对应的第四损失函数;将第四样本集输入卷积循环神经网络模型内,并根据第四损失函数对卷积循环神经网络模型的网络参数进行训练,以得到字符识别子模型。其进一步技术方案为:所述字符识别子模型的卷积层为6层,字符识别子模型的循环神经网络采用双向长短期记忆网络,字符识别子模型的最后一层网络为全连接层网络。本专利技术还提供了增值税发票识别装置,包括:数据获取单元,用于获取需要识别的增值税发票数据,以得到待识别增值税发票数据;识别单元,用于对待识别增值税发票数据采用识别模型进行文本识别,以得到识别结果;输出单元,用于输出所述识别结果。本专利技术还提供了一种计算机设备,所述计算机设备包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现上述的方法。本专利技术还提供了一种存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时可实现上述的方法。本专利技术与现有技术相比的有益效果是:本专利技术通过建立识别模型,利用该识别模型对待识别增值税发票进行文本识别,其中,识别模块囊括四个子模型,识别模块基于手机拍摄得到的真实增值税发票数据集进行建模,形成分类子模型、增值税电子普通发票检测子模型、增值税普通、专用发票检测子模型、字符识别子模型,实现端到端的增值税发票快速和精准识别,整个识别模型简单,且发票识别准确率较为稳定,模型部署上线和维护均方便。下面结合附图和具体实施例对本专利技术作进一步描述。附图说明为了更清楚地说明本专利技术实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的增值税发票识别方法的应用场景示意图;图2为本专利技术实施例提供的增值税发票识别方法的流程示意图;图3为本专利技术实施例提供的增值税发票识别方法的子流程示意图;图4为本专利技术实施例提供的增值税发票识别方法的子流程示意图;图5为本专利技术实施例提供的增值税发票识别方法的子流程示意图;图6为本专利技术实施例提供的增值税发票识别方法的子流本文档来自技高网...

【技术保护点】
1.增值税发票识别方法,其特征在于,包括:获取需要识别的增值税发票数据,以得到待识别增值税发票数据;对待识别增值税发票数据采用识别模型进行文本识别,以得到识别结果;输出所述识别结果。

【技术特征摘要】
1.增值税发票识别方法,其特征在于,包括:获取需要识别的增值税发票数据,以得到待识别增值税发票数据;对待识别增值税发票数据采用识别模型进行文本识别,以得到识别结果;输出所述识别结果。2.根据权利要求1所述的增值税发票识别方法,其特征在于,所述对待识别增值税发票数据采用识别模型进行文本识别,以得到识别结果,包括:采用识别模型内的分类子模型对待识别增值税发票数据进行分类,以得到类别;判断所述类别是否为增值税电子普通发票;若是,则采用识别模型内的增值税电子普通发票检测子模型对所述待识别增值税发票数据进行文本定位,以得到定位信息;若否,则采用识别模型内的增值税普通、专用发票检测子模型对所述待识别增值税发票数据进行文本定位,以得到定位信息;根据所述定位信息对待识别增值税发票数据进行截取,以得到文本框区域图片;采用识别模型内的字符识别子模型对所述文本框区域图片进行字符识别,以得到识别结果;其中,所述分类子模型是通过若干携带有类别标签的增值税发票数据作为第一样本集训练神经网络所得的;所述增值税电子普通发票检测子模型是通过若干携带有定位信息标签的增值税电子普通发票数据作为第二样本集训练神经网络所得的;所述增值税普通、专用发票检测子模型是通过若干携带有定位信息标签的增值税普通、专用发票数据作为第三样本集训练神经网络所得的;所述字符识别子模型是通过若干携带有字符标签的文本框区域图片作为第四样本集训练神经网络所得的。3.根据权利要求2所述的增值税发票识别方法,其特征在于,所述分类子模型是通过若干携带有类别标签的增值税发票数据作为第一样本集训练神经网络所得的,包括:获取若干真实场景下的增值税发票数据,以得到原始数据集;对原始数据集进行扩展处理,以得到训练集与测试集;对所述训练集进行类别标签标注,以得到第一样本集;构建优化后的YoloV3文本检测模型以及对应的第一损失函数;将第一样本集输入优化后的YoloV3文本检测模型内,并根据第一损失函数对优化后的YoloV3文本检测模型的网络参数进行训练,以得到分类子模型。4.根据权利要求2所述的增值税发票识别方法,其特征在于,所述增值税电子普通发票检测子模型是通过若干携带有定位信息标签的增值税电子普通发票数据作为第二样本集训练神经网络所得的,包括:获取若干增值税电子普通...

【专利技术属性】
技术研发人员:管水城温凯雯吕仲琪顾正
申请(专利权)人:深圳市华云中盛科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1