跨场景票据识别方法、装置、设备和存储介质制造方法及图纸

技术编号:34631838 阅读:8 留言:0更新日期:2022-08-24 15:04
本申请公开了一种跨场景票据识别方法、装置、设备和存储介质,该方法包括:获取训练票据图像及其标签;对所述训练票据图像进行像素识别,获取所述训练票据图像的训练特征向量;所述至少两种所述训练特征向量构成一个训练特征向量集;根据所述训练特征向量和所述训练票据图像的所述标签,训练机器学习分类模型;获取现场票据图像;对所述现场票据图像进行像素识别,获取所述现场票据图像的现场特征向量;通过所述机器学习分类模型将所述现场特征向量与所述训练特征向量特征集中的所有所述训练特征向量进行比对,获得比对结果。本发明专利技术提供的跨场景票据识别方法能识别多种票据,适用性较高。性较高。性较高。

【技术实现步骤摘要】
跨场景票据识别方法、装置、设备和存储介质


[0001]本申请涉及票据识别
,具体而言,涉及一种跨场景票据识别方法、装置、设备和存储介质。

技术介绍

[0002]在目前的票据识别领域,票据识别方法及装置均根据特定领域中逻辑展开识别的,比如增值税票据领域的票据识别方法只针对识别增值税这一种票据,各领域的票据识别方法大同小异,均是针对本领域的发票进行设计的,这些票据识别方法及装置一个共同的问题在于方法不能复用,不能识别多种票据,针对性太强,适用性较低。因此,需要一种能够识别多种票据,适用性较高的方法。

技术实现思路

[0003]本申请的主要目的在于提供一种跨场景票据识别方法、装置、设备和存储介质,以解决相关技术中不能识别多种票据,针对性太强,适用性较低的问题。
[0004]为了实现上述目的,第一方面,本申请提供了一种跨场景票据识别方法,其特征在于,包括:获取训练票据图像及其标签,所述标签为标准票据内容;对所述训练票据图像进行像素识别,获取所述训练票据图像的训练特征向量;所述训练票据图像机器标签均至少包括两种,所述训练特征向量包括至少两种,所述至少两种所述训练特征向量构成一个训练特征向量集;根据所述训练特征向量和所述训练票据图像的所述标签,训练机器学习分类模型;获取现场票据图像;对所述现场票据图像进行像素识别,获取所述现场票据图像的现场特征向量;通过所述机器学习分类模型将所述现场特征向量与所述训练特征向量特征集中的所有所述训练特征向量进行比对,获得比对结果。
[0005]进一步地,对所述训练票据图像进行像素识别,获取获取所述训练票据图像的训练票据特征向量包括:对所述训练票据图像进行降噪处理、倾斜度矫正和二值化处理,获得预处理图像;识别所述预处理图像中的文字区域,对所述文字区域进行分类处理,并将连续的一段文字注意分割成单个训练字段;逐一提取每个所述训练字段的训练字段特征向量;将每个训练字段特征向量输入字段分类器,获得所述预处理图像中的文字识别结果;通过语言模型分析所述预处理图像中的文字识别结果的语言上下文关系,矫正所述文字分类器输出的文字识别结果,获得所述训练票据特征向量。
[0006]进一步地,对所述训练票据图像进行像素识别,获取所述训练票据图像的所述训练票据特征向量,包括:对所述训练票据图像进行像素识别,获得所述训练票据图像的票据类型、票据号码、票据代码、开票日期、供应商名称、供应商纳税人识别号、票据金额和票据税额;对所述训练票据图像的票据类型、票据号码、票据代码、开票日期、供应商名称、供应商纳税人识别号、票据金额和票据税额进行处理,生成所述训练票据特征向量。
[0007]进一步地,对所述训练票据图像的票据类型、票据号码、票据代码、开票日期、供应
商名称、供应商纳税人识别号、票据金额和票据税额进行处理,生成所述训练票据特征向量,包括:对所述票据类型和所述供应商名称分别进行量化表示;对所述票据金额和所述票据税额进行离散化表示。
[0008]进一步地,将所述训练票据图像、所述训练票据特征向量、标签存储至区块链中的历史票据库;将所述现场票据图像、所述现场特征向量、票据识别结果存储至所述训练票据库,以更新所述训练票据库。
[0009]进一步地,将所述训练票据图像、所述训练票据特征向量、标签存储至区块链中的训练票据库;将所述现场票据图像、所述现场特征向量、票据识别结果存储至所述训练票据库,以更新所述训练票据库。
[0010]进一步地,根据所述训练票据特征向量,获得所述训练票据图像对应的训练对象信息;根据所述训练对象信息获得训练对象特征向量;根据所述训练票据图像及其标签,确定所述训练对象特征向量的标注,所述标注为未具有虚开票据行为或具有虚开票据行为;根据所述训练对象特征向量及其标注,训练机器学习预测模型;获取现场对象信息;根据所述现场对象信息提取现场对象的现场对象特征向量;通过所述机器学习预测模型对所述现场对象特征向量进行处理,获得所述现场对象的对象预测结果,其中所述对象预测结果为未具有虚开票据行为或具有虚开票据行为。
[0011]进一步地,本专利技术还提供一种跨场景票据识别装置,包括: 训练票据信息获取单元,用于获取训练票据图像及其标签,所述标签为标准票据内容; 训练票据向量获取单元,用于对所述训练票据图像进行像素识别,获取所述训练票据图像的训练票据特征向量;机器分类模型训练单元,用于根据所述训练票据特征向量和所述训练票据图像对应的标签,训练机器学习分类模型;现场票据图像获取单元,用于获取现场票据图像;现场票据向量获取单元,用于对所述现场票据图像进行像素识别,获取所述现场票据图像的现场票据特征向量;票据识别结果获得单元,用于通过所述机器学习分类模型对所述现场票据特征向量进行处理,获得所述现场票据图像的票据识别结果,其中所述票据识别结果为一种标准票据内容。
[0012]进一步地,本专利技术提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现上述的跨场景票据识别方法。
[0013]进一步地,一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现上述的跨场景票据识别方法。
[0014]本专利技术具有如下的有益效果:使用多种训练票据图像训练出多个训练特征向量构成一个训练特征向量集,每个训练特征向量针对识别一种票据,在识别现场票据图像过程中,通过提取现场票据中的现场特征向量,然后比对现场特征向量与训练特征向量集中的所有训练特征向量,找出与现场特征向量相等的训练特征向量,此训练特征向量的标签就是对训练票据图像的识别结果。训练特征向量集中有多少数量的训练特征向量,此方法就能识别多少种票据。
附图说明
[0015]构成本申请的一部分的附图用来提供对本申请的进一步理解,使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:图1是根据本申请实施例提供的跨场景票据识别方法的流程图;图2是根据本申请实施例提供的跨场景票据识别装置的结构示意图;图3是根据本申请实施例提供的跨场景票据识别设备的结构示意图。
具体实施方式
[0016]为了使本
的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
[0017]需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种跨场景票据识别方法,其特征在于,包括:获取训练票据图像及其标签,所述标签为标准票据内容;对所述训练票据图像进行像素识别,获取所述训练票据图像的训练票据特征向量;所述训练票据图像及其标签均至少包括两种,所述训练特征向量包括至少两种并构成一个训练特征向量集;根据所述训练特征向量和所述训练票据图像的所述标签,训练机器学习分类模型;获取现场票据图像;对所述现场票据图像进行像素识别,获取所述现场票据图像的现场特征向量;通过所述机器学习分类模型将所述现场特征向量与所述训练票据特征向量集中的所有所述训练特征向量进行比对,获得比对结果。2.根据权利要求1所述的方法,其特征在于,对所述训练票据图像进行像素识别,获取所述训练票据图像的训练票据特征向量包括:对所述训练票据图像进行降噪处理、倾斜度矫正和二值化处理,获得预处理图像;识别所述预处理图像中的文字区域,对所述文字区域进行分类处理,并将连续的一段文字分割成单个训练字段;逐一提取每个所述训练字段的训练字段特征向量;将每个训练字段特征向量输入字段分类器,获得所述预处理图像中的文字识别结果;通过语言模型分析所述预处理图像中的文字识别结果的语言上下文关系,矫正所述文字分类器输出的文字识别结果,获得所述训练票据特征向量。3.根据权利要求2所述的方法,其特征在于,对所述训练票据图像进行像素识别,获取所述训练票据图像的所述训练票据特征向量,包括:对所述训练票据图像进行像素识别,获得所述训练票据图像的票据类型、票据号码、票据代码、开票日期、供应商名称、供应商纳税人识别号、票据金额和票据税额;对所述训练票据图像的票据类型、票据号码、票据代码、开票日期、供应商名称、供应商纳税人识别号、票据金额和票据税额进行处理,生成所述训练票据特征向量。4.根据权利要求3所述的方法,其特征在于,对所述训练票据图像的票据类型、票据号码、票据代码、开票日期、供应商名称、供应商纳税人识别号、票据金额和票据税额进行处理,生成所述训练票据特征向量,包括:对所述票据类型和所述供应商名称分别进行量化表示;对所述票据金额和所述票据税额进行离散化表示。5.根据权利要求4所述的方法,其特征在于,还包括:将所述训练票据图像、所述训练票据特征向量、标签存...

【专利技术属性】
技术研发人员:王有志
申请(专利权)人:汇承金融科技服务南京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1