票据样本的扩容方法、装置、电子设备、及存储介质制造方法及图纸

技术编号:28296460 阅读:27 留言:0更新日期:2021-04-30 16:21
本发明专利技术实施例涉及一种票据样本的扩容方法、装置、电子设备、及存储介质,方法包括:对原始票据图片进行数据增强处理得到多个票据图片,将所得到的多个票据图片和原始票据图片汇聚一起作为票据图片集;分别对票据图片集中的票据图片进行文字擦除处理得到空白票据图片集;分别对票据图片集中的票据图片进行表格线检测得到各票据图片的各表格线区域;对空白票据图片集中任一空白票据图片,在该空白票据图片对应的票据图片的各表格线区域依次插入票据内容项以得到至少一个合成票据图片,将所得到的合成票据图片和票据图片集汇聚一起作为票据样本集,能够对原始票据样本扩容得到大量的贴近真实的票据样本,能够减少样本扩容的工作量。

【技术实现步骤摘要】
票据样本的扩容方法、装置、电子设备、及存储介质
本专利技术实施例涉及机器学习
,具体涉及一种票据样本的扩容方法、装置、电子设备、及存储介质。
技术介绍
增值税属于隐私数据,客户大多不愿意提供,因此一般收集到的样本数据较少。在增值税发票文档解析时,由于数据样本较少导致样本特征数量、特征维度以及特征语义信息较少,在模型训练时容易导致模型训练时容易发生过拟合或者欠拟合,训练出来的模型泛化能力低,很难应用在工业生产环境中。为了解决上述问题,一种现有的方案是采用数据增强技术,通过各种图像变换,如随机裁剪、增加滤波、改变明暗程度、图片拼接等等手段在原有的图片上进行操作,增加样本丰富度。但是,在数据量较小的情况下,通过数据增强的方式,只会增加特征丰富度,但是特征维度是不会改变,如某种场景或者某种类型的图片在原有的数据集中未包含,无论怎么做图像增强,也不会包含未出现的语义信息。
技术实现思路
有鉴于此,本专利技术实施例提供一种票据样本的扩容方法、装置、电子设备、及存储介质,以扩容得到大量的贴近真实的票据样本。本专利技术实施例的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本专利技术实施例的实践而习得。在本公开的第一方面,本专利技术实施例提供了一种票据样本的扩容方法,包括:对原始票据图片进行数据增强处理得到多个票据图片,将所得到的多个票据图片和所述原始票据图片汇聚一起作为票据图片集;分别对所述票据图片集中的票据图片进行文字擦除处理得到空白票据图片集;分别对所述票据图片集中的票据图片进行表格线检测得到各票据图片的各表格线区域;对所述空白票据图片集中任一空白票据图片,在该空白票据图片对应的票据图片的各表格线区域依次插入票据内容项以得到至少一个合成票据图片,将所得到的合成票据图片和所述票据图片集汇聚一起作为票据样本集。于一实施例中,对所述空白票据图片集中任一空白票据图片,在该空白票据图片对应的票据图片的各表格线区域依次插入票据内容项以得到至少一个合成票据图片包括:为各表格线区域随机生成一套符合规则的票据内容,所述票据内容包括分别对应于各表格线区域的多个票据内容项;对所述空白票据图片集中任一空白票据图片,在该空白票据图片对应的票据图片的各表格线区域依次插入所生成的票据内容的票据内容项以得到至少一个合成票据图片。于一实施例中,为各表格线区域随机生成一套符合规则的票据内容之后还包括:随机为所述票据内容设置格式和/或样式。于一实施例中,随机为所述票据内容设置格式和/或样式包括:对多个原始票据图片的票据内容进行格式统计以确定各格式的出现概率,根据各格式的出现概率随机为所述票据内容设置格式;和/或对所述多个原始票据图片的票据内容进行样式统计以确定各样式的出现概率,根据各样式的出现概率随机为所述票据内容设置样式。于一实施例中,所述格式包括字体、颜色、以及文字大小中的至少一种;所述样式包括文字数量、文字内容、以及文字顺序中的至少一种。于一实施例中,在得到所述票据样本集之后还包括,对所述票据样本集进行抽样,将抽样结果再进行数据增强处理,将数据增强处理得到的票据图片和所述票据样本集汇聚。于一实施例中,所述数据增强处理包括如下至少一种:文字扭曲、中心字放大、旋转、裁剪、添加黑边、亮度变化、以及清晰度变化。在本公开的第二方面,本专利技术实施例还提供了一种票据样本的扩容装置,包括:增强处理单元,用于对原始票据图片进行数据增强处理得到多个票据图片,将所得到的多个票据图片和所述原始票据图片汇聚一起作为票据图片集;文字擦除单元,用于分别对所述票据图片集中的票据图片进行文字擦除处理得到空白票据图片集;表格区域检测单元,用于分别对所述票据图片集中的票据图片进行表格线检测得到各票据图片的各表格线区域;图片合成单元,用于对所述空白票据图片集中任一空白票据图片,在该空白票据图片对应的票据图片的各表格线区域依次插入票据内容项以得到至少一个合成票据图片,将所得到的合成票据图片和所述票据图片集汇聚一起作为票据样本集。于一实施例中,所述图片合成单元包括票据内容生成子单元和票据内容插入子单元:所述票据内容生成子单元用于,为各表格线区域随机生成一套符合规则的票据内容,所述票据内容包括分别对应于各表格线区域的多个票据内容项;所述票据内容插入子单元用于,对所述空白票据图片集中任一空白票据图片,在该空白票据图片对应的票据图片的各表格线区域依次插入所生成的票据内容的票据内容项以得到至少一个合成票据图片。于一实施例中,所述图片合成单元还包括票据内容样式设置子单元,所述票据内容样式设置子单元用于在为各表格线区域随机生成一套符合规则的票据内容之后,随机为所述票据内容设置格式和/或样式。于一实施例中,所述票据内容样式设置子单元还用于:对多个原始票据图片的票据内容进行格式统计以确定各格式的出现概率,根据各格式的出现概率随机为所述票据内容设置格式;和/或对所述多个原始票据图片的票据内容进行样式统计以确定各样式的出现概率,根据各样式的出现概率随机为所述票据内容设置样式。于一实施例中,所述格式包括字体、颜色、以及文字大小中的至少一种;所述样式包括文字数量、文字内容、以及文字顺序中的至少一种。于一实施例中,所述装置还包括二次增强处理单元,用于在得到所述票据样本集之后还包括,对所述票据样本集进行抽样,将抽样结果再进行数据增强处理,将数据增强处理得到的票据图片和所述票据样本集汇聚。于一实施例中,所述数据增强处理包括如下至少一种:文字扭曲、中心字放大、旋转、裁剪、添加黑边、亮度变化、以及清晰度变化。在本公开的第三方面,提供了一种电子设备。该电子设备包括:处理器;以及存储器,用于存储可执行指令,所述可执行指令在被所述处理器执行时使得所述电子设备执行第一方面中的方法。在本公开的第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现第一方面中的方法。本专利技术实施例提出的技术方案的有益技术效果是:本专利技术实施例通过对原始票据图片进行数据增强处理得到多个票据图片,将所得到的多个票据图片和所述原始票据图片汇聚一起作为票据图片集,分别对所述票据图片集中的票据图片进行文字擦除处理得到空白票据图片集,以及分别对所述票据图片集中的票据图片进行表格线检测得到各票据图片的各表格线区域;对所述空白票据图片集中任一空白票据图片,在该空白票据图片对应的票据图片的各表格线区域依次插入票据内容项以得到至少一个合成票据图片,将所得到的合成票据图片和所述票据图片集汇聚一起作为票据样本集,能够对原始票据样本扩容得到大量的贴近真实的票据样本,能够使新生成的票据和真实的或者增强处理的票据有一样的背景,能够使新生成的票据中的文字内容逼近真实数据。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对本专利技术实施例描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅本文档来自技高网...

【技术保护点】
1.一种票据样本的扩容方法,其特征在于,包括:/n对原始票据图片进行数据增强处理得到多个票据图片,将所得到的多个票据图片和所述原始票据图片汇聚一起作为票据图片集;/n分别对所述票据图片集中的票据图片进行文字擦除处理得到空白票据图片集;/n分别对所述票据图片集中的票据图片进行表格线检测得到各票据图片的各表格线区域;/n对所述空白票据图片集中任一空白票据图片,在该空白票据图片对应的票据图片的各表格线区域依次插入票据内容项以得到至少一个合成票据图片,将所得到的合成票据图片和所述票据图片集汇聚一起作为票据样本集。/n

【技术特征摘要】
1.一种票据样本的扩容方法,其特征在于,包括:
对原始票据图片进行数据增强处理得到多个票据图片,将所得到的多个票据图片和所述原始票据图片汇聚一起作为票据图片集;
分别对所述票据图片集中的票据图片进行文字擦除处理得到空白票据图片集;
分别对所述票据图片集中的票据图片进行表格线检测得到各票据图片的各表格线区域;
对所述空白票据图片集中任一空白票据图片,在该空白票据图片对应的票据图片的各表格线区域依次插入票据内容项以得到至少一个合成票据图片,将所得到的合成票据图片和所述票据图片集汇聚一起作为票据样本集。


2.根据权利要求1所述的方法,其特征在于,对所述空白票据图片集中任一空白票据图片,在该空白票据图片对应的票据图片的各表格线区域依次插入票据内容项以得到至少一个合成票据图片包括:
为各表格线区域随机生成一套符合规则的票据内容,所述票据内容包括分别对应于各表格线区域的多个票据内容项;
对所述空白票据图片集中任一空白票据图片,在该空白票据图片对应的票据图片的各表格线区域依次插入所生成的票据内容的票据内容项以得到至少一个合成票据图片。


3.根据权利要求2所述的方法,其特征在于,为各表格线区域随机生成一套符合规则的票据内容之后还包括:
随机为所述票据内容设置格式和/或样式。


4.根据权利要求3所述的方法,其特征在于,随机为所述票据内容设置格式和/或样式包括:
对多个原始票据图片的票据内容进行格式统计以确定各格式的出现概率,根据各格式的出现概率随机为所述票据内容设置格式;和/或
对所述多个原始票据图片的票据内容进行样式统计以确定各样式的出现概率,根据各样式的出现概率随机为所述票据内容设置样式。


...

【专利技术属性】
技术研发人员:陈录城王庆刚王忠诚盛国军沈圣远徐鹏
申请(专利权)人:海尔数字科技青岛有限公司青岛海尔工业智能研究院有限公司海尔卡奥斯物联生态科技有限公司
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1