【技术实现步骤摘要】
票据样本的扩容方法、装置、电子设备、及存储介质
本专利技术实施例涉及机器学习
,具体涉及一种票据样本的扩容方法、装置、电子设备、及存储介质。
技术介绍
增值税属于隐私数据,客户大多不愿意提供,因此一般收集到的样本数据较少。在增值税发票文档解析时,由于数据样本较少导致样本特征数量、特征维度以及特征语义信息较少,在模型训练时容易导致模型训练时容易发生过拟合或者欠拟合,训练出来的模型泛化能力低,很难应用在工业生产环境中。为了解决上述问题,一种现有的方案是采用数据增强技术,通过各种图像变换,如随机裁剪、增加滤波、改变明暗程度、图片拼接等等手段在原有的图片上进行操作,增加样本丰富度。但是,在数据量较小的情况下,通过数据增强的方式,只会增加特征丰富度,但是特征维度是不会改变,如某种场景或者某种类型的图片在原有的数据集中未包含,无论怎么做图像增强,也不会包含未出现的语义信息。
技术实现思路
有鉴于此,本专利技术实施例提供一种票据样本的扩容方法、装置、电子设备、及存储介质,以扩容得到大量的贴近真实的票据样本 ...
【技术保护点】
1.一种票据样本的扩容方法,其特征在于,包括:/n对原始票据图片进行数据增强处理得到多个票据图片,将所得到的多个票据图片和所述原始票据图片汇聚一起作为票据图片集;/n分别对所述票据图片集中的票据图片进行文字擦除处理得到空白票据图片集;/n分别对所述票据图片集中的票据图片进行表格线检测得到各票据图片的各表格线区域;/n对所述空白票据图片集中任一空白票据图片,在该空白票据图片对应的票据图片的各表格线区域依次插入票据内容项以得到至少一个合成票据图片,将所得到的合成票据图片和所述票据图片集汇聚一起作为票据样本集。/n
【技术特征摘要】
1.一种票据样本的扩容方法,其特征在于,包括:
对原始票据图片进行数据增强处理得到多个票据图片,将所得到的多个票据图片和所述原始票据图片汇聚一起作为票据图片集;
分别对所述票据图片集中的票据图片进行文字擦除处理得到空白票据图片集;
分别对所述票据图片集中的票据图片进行表格线检测得到各票据图片的各表格线区域;
对所述空白票据图片集中任一空白票据图片,在该空白票据图片对应的票据图片的各表格线区域依次插入票据内容项以得到至少一个合成票据图片,将所得到的合成票据图片和所述票据图片集汇聚一起作为票据样本集。
2.根据权利要求1所述的方法,其特征在于,对所述空白票据图片集中任一空白票据图片,在该空白票据图片对应的票据图片的各表格线区域依次插入票据内容项以得到至少一个合成票据图片包括:
为各表格线区域随机生成一套符合规则的票据内容,所述票据内容包括分别对应于各表格线区域的多个票据内容项;
对所述空白票据图片集中任一空白票据图片,在该空白票据图片对应的票据图片的各表格线区域依次插入所生成的票据内容的票据内容项以得到至少一个合成票据图片。
3.根据权利要求2所述的方法,其特征在于,为各表格线区域随机生成一套符合规则的票据内容之后还包括:
随机为所述票据内容设置格式和/或样式。
4.根据权利要求3所述的方法,其特征在于,随机为所述票据内容设置格式和/或样式包括:
对多个原始票据图片的票据内容进行格式统计以确定各格式的出现概率,根据各格式的出现概率随机为所述票据内容设置格式;和/或
对所述多个原始票据图片的票据内容进行样式统计以确定各样式的出现概率,根据各样式的出现概率随机为所述票据内容设置样式。
...
【专利技术属性】
技术研发人员:陈录城,王庆刚,王忠诚,盛国军,沈圣远,徐鹏,
申请(专利权)人:海尔数字科技青岛有限公司,青岛海尔工业智能研究院有限公司,海尔卡奥斯物联生态科技有限公司,
类型:发明
国别省市:山东;37
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。