当前位置: 首页 > 专利查询>深圳大学专利>正文

扩增文档分析模型的训练数据的训练方法及训练装置制造方法及图纸

技术编号:32833207 阅读:35 留言:0更新日期:2022-03-26 20:49
本公开描述了一种扩增文档分析模型的训练数据的训练方法,包括获取第一样本和用于验证的第二样本;将原始文档图像输入基于生成对抗网络的数据生成模型以获得对应的伪文档图像数据;并且基于第一样本和包括伪文档图像数据的第三样本获取目标样本,利用目标样本对文档分析模型进行训练,并利用第二样本对训练后的文档分析模型进行验证,其中,数据生成模型的第一模型的训练包括:对第一样本和对应的原始文档图像进行图像对齐和图像分割以获取多个成对的图像块作为第一训练集;利用第一训练集对第一模型进行训练以使第一模型生成的伪合法图像的图像块与合法图像块相匹配。由此,能够方便地扩增训练数据且能够使文档分析模型具有较高的泛化性能。型具有较高的泛化性能。型具有较高的泛化性能。

【技术实现步骤摘要】
扩增文档分析模型的训练数据的训练方法及训练装置


[0001]本公开大体涉及文档处理领域,具体涉及一种扩增文档分析模型的训练数据的训练方法及训练装置。

技术介绍

[0002]近年来,机器学习(例如深度学习)方法在众多领域都被证实存在巨大的有效性,同时有巨大的开发潜力。例如,在文档图像分析与识别领域,常常利用监督学习对文档图像进行取证,或对数字文档图像的翻拍判别或者数字文档图像篡改区域的检测与判定,进而提高文档图像的安全性。
[0003]以训练用于应对翻拍攻击的翻拍检测网络为例,一般是使用人工获取训练数据的方式构建用于训练的数据库,在构建数据库时,首先要获取原始文档经过一次打印扫描从而得到合法文档,其次,需要人为将电子档的合法文档(也即被篡改后的原始文档)打印后再通过采集设备(例如打印机或手机)获取翻拍文档。在另一些研究中,也使用一些自动或半自动化的方法获取训练数据。例如,使用开源软件DocCreator通过不同的退化模型(例如,墨水退化、字体幻影、纸张破损、自适应模糊、纸张变形或非线性光照模型)生成合法文档或翻拍文档。又例如,在原始文档的本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种扩增文档分析模型的训练数据的训练方法,其特征在于,所述文档分析模型是对由采集设备基于原始文档图像获得的文档图像进行分析的基于机器学习的模型,所述训练方法包括:获取第一样本和用于验证的第二样本,其中,所述第一样本和所述第二样本分别包括所述文档图像,所述文档图像包括合法图像;将所述原始文档图像输入基于生成对抗网络的数据生成模型以获得该原始文档图像对应的伪文档图像数据,其中,所述伪文档图像数据包括伪合法图像的图像块,所述数据生成模型是利用所述第一样本进行训练以模拟所述采集设备生成所述文档图像的方式;并且基于所述第一样本和包括所述伪文档图像数据的第三样本获取目标样本,利用所述目标样本对所述文档分析模型进行训练,并利用所述第二样本对训练后的文档分析模型进行验证以分析所述训练后的文档分析模型的性能,其中,所述数据生成模型的训练包括基于生成对抗网络且用于生成所述伪合法图像的图像块的第一模型的训练,所述第一模型的训练包括:对所述第一样本中的合法图像进行图像对齐后,对所述第一样本中的合法图像以及与所述第一样本对应的原始文档图像进行图像分割以获取多个成对的图像块作为第一训练集,其中,所述成对的图像块包括来源该原始文档图像的原始图像块和与所述原始图像块对应且来源所述第一样本中的合法图像的合法图像块;利用所述第一训练集对所述第一模型进行训练以使所述第一模型生成的所述伪合法图像的图像块与所述合法图像块相匹配。2.根据权利要求1所述的训练方法,其特征在于,所述第一模型包括相互耦合的第一生成对抗网络和第二生成对抗网络,在对所述第一模型进行训练时:所述第一生成对抗网络的生成网络将所述多个成对的图像块中的一对图像块中的原始图像块转成第一伪合法图像块,所述第二生成对抗网络的生成网络将所述第一伪合法图像块转成第一伪原始图像块;所述第二生成对抗网络的生成网络将所述一对图像块中的合法图像块转成第二伪原始图像块,所述第一生成对抗网络的生成网络将所述第二伪原始图像块转成第二伪合法图像块;所述第一生成对抗网络的判别网络通过判断所述一对图像块中的合法图像块与所述第二伪合法图像块的相似性以获取第一判别结果,所述第二生成对抗网络的判别网络通过判断所述一对图像块中的原始图像块与所述第一伪原始图像块的相似性以获取第二判别结果;并且基于所述第一判别结果和所述第二判别结果构建所述第一模型的第一损失函数并利用所述第一损失函数优化所述第一模型。3.根据权利要求1所述的...

【专利技术属性】
技术研发人员:陈昌盛朱罡张书政
申请(专利权)人:深圳大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1