基于深度学习生成文档图像集的方法技术

技术编号:27312885 阅读:20 留言:0更新日期:2021-02-10 09:39
本发明专利技术公开一种基于深度学习生成文档图像集的方法:首先将页面对象类型序列从一维向量空间投影至二维向量空间;然后进行深度卷积生成对抗网络建模;训练网络参数并使用训练好的网络模型生成对象类型序列;根据网络生成的对象类型序列生成文档对象内容;最终将文档转换成文档图像,生成文档图像集。基于深度学习框架的卷积生成对抗网络自动生成图像文档,使用对抗网络中的判别网络学习现存的文档图像,用对抗网络中的生成网络自动生成新的文档图像,从而得到文档图像集;由于采用现存的文档图像训练网路参数,生成的文档图像更贴近出版物,且与人工标注相比能够自动生成文档图像集及标注信息,节省时间和人力成本,避免由于人工标注带来的无效标注。工标注带来的无效标注。工标注带来的无效标注。

【技术实现步骤摘要】
基于深度学习生成文档图像集的方法


[0001]本专利技术涉及一种图像生成方法,属于图像数据集自动生成领域,具体涉及基于深度学习生成文档图像集的方法。

技术介绍

[0002]在文档图像处理的诸多领域中,如分割、分类、检索等领域,带标记的文档图像集是机器学习过程中不可或缺的数据基础。随着大数据时代的到来,“端到端”的深度学习在人工智能研究领域中成了重要研究方法,与传统的机器学习相比,深度学习需要更多训练数据。
[0003]目前,研究人员为了更高效地获取包含文档图像及标注信息的图像集,采用了一些图像集自动生成方法。如2017年文档分析与识别国际会议(International Conference on Document Analysis and Recognition,ICDAR)上的论文(D.He,S.Cohen,B.Price,D.Kifer and C.L.Giles,"Multi-Scale Multi-Task FCN for Semantic Page Segmentation and Table Detection")中将段落、图、表格、标题、段落标题、列表等等元素进行随机排列生成文档图像数据集,用于深度学习训练。同样,申请公布号为【CN 108898188 A】的专利技术专利也公开一种图像数据集辅助标记系统及方法,利用神经网络训练的思想对神经网络训练所需的图像进行初步特征提取训练,对图像进行识别标记获得神经网络所需的标签文档格式,在大量的图像信息中获得某一类的标签文档。
[0004]另一方面,很多图像集仍然采用人工标注的方法制作,例如:牛津大学机器人研究组(Robotics Research Group)设计的图像标注工具VIA(“Abhishek Dutta and Andrew Zisserman.2019.The VIA Annotation Software for Images,Audio and Video.In Proceedings of the 27th ACM International Conference on Multimedia(MM

19),October 21

25,2019,Nice,France.ACM,New York,NY,USA.”,使用VIA工具可以使用不同形状(矩形、圆、椭圆、多边形,等等)对图像区域进行手工标注。
[0005]对于人工标注而言,虽然其具有很强灵活性,标注过程中可以弹性更改标注策略,标注结果能够较好地契合预期,但是,其缺点也是显然的,即标注过程费时、人力成本高昂,而且标注质量与标注人员的熟练程度成正比;相对于人工标注,文档图像数据集自动生成方法可以较好地克服人工标注的不足,但是也存在不可避免的问题,比如,出版业具有自身的行业规范,不同出版物的版面设计也遵循特定的规律,通过这些规律更好地展示文档内容,若随机生成的文档图像不能很好地契合出版物的排版规律,使得训练出来的模型应用于真实出版物文档图像时,不能体现模型的最佳性能。

技术实现思路

[0006]本专利技术针对现有获得文档图像集方法所存在的缺陷,提出基于深度学习生成文档图像集的方法,采用深度学习框架的卷积生成对抗网络自动生成图像文档,使用对抗网络中的判别网络学习现存的文档图像,然后用对抗网络中的生成网络自动生成新的文档图
像,从而得到文档图像集。
[0007]本专利技术是采用以下的技术方案实现的:基于深度学习生成文档图像集的方法,包括以下步骤:
[0008]步骤A、向量空间投影建模:将文档图像页面中的对象视为一个序列,序列中每一个节点对应一个对象的类型,得到文档对象序列和与其一一对应的对象类型序列,并将对象类型序列重排得到其对应的二维矩阵,从而将对象类型序列从一维向量空间投影至二维向量空间;
[0009]步骤B、深度卷积生成对抗网络建模:所述对抗网络包含判别网络和生成网络;判别网络采用已有文档图像进行训练,其作用在于训练生成网络;生成网络训练好后,训练后的生成网络用以生成二维矩阵,旨在后续自动生成文档图像集;
[0010]步骤C、训练网络模型参数:对步骤B构建的对抗网络进行训练并求解网络参数;将现有文档图像中的文档对象类型序列重排为二维矩阵,用于训练判别网络;并使用训练好的判别网络对生成网络进行训练;
[0011]步骤D、生成对象类型序列:基于训练好的生成网络自动输出新的二维矩阵;然后,将该新的二维矩阵投影至一维向量空间,得到新的文档对象类型序列;
[0012]步骤E、生成文档对象内容:采集各种文档对象数据,并根据步骤D生成新的文档对象类型序列,自动生成文档对象的具体内容;
[0013]步骤F、将步骤E生成的文档转换成文档图像,生成文档图像集,所述文档图像集包含文档图像、文档对象坐标信息和文档对象具体内容。
[0014]进一步的,所述步骤A中,所述对象的类型包括页眉、文本、图、图注、表格、公式、页码和页脚;
[0015](1)将文档图像页面中的若干个对象定义为文档对象序列,即:
[0016]DO
i
,i=1,2,3...N
ꢀꢀ
(1)
[0017]其中,DO
i
表示第i个文档对象;N表示文档对象的数量;
[0018]并将与文档对象序列对应的类型序列定义为对象类型序列,即:
[0019]y
i
,i=1,2,3...N
ꢀꢀ
(2)
[0020]y
i
∈{Type
j
|j=1,2,3...M}
ꢀꢀ
(3)
[0021]其中,y
i
表示第i个文档对象对应的类型,M表示对象类型的数量,Type
j
表示类型;
[0022](2)将每一页文档图像页面中的文档对象序列视为一个向量,将公式(1)和公式(2)表示为向量形式:
[0023]DO=[DO1,DO2,DO3,...DO
N
]ꢀꢀ
(4)
[0024]Y=[y1,y2,y3,...y
N
]ꢀꢀ
(5)
[0025](3)设有p页文档图像,将第p页的文档对象序列和对象类型序列分别表示成向量形式:
[0026][0027][0028]其中,上标p表示第p页,下标Np表示第p页中文档对象的数量,第p页的第i个对象的类型为1≤i≤Np,第p页共有Np个文档对象,第p-1页共有N(p-1)个文档对象;
[0029](4)将1~p页的对象类型序列按照页码顺序排列,在整个序列中的位置为:
[0030][0031]其中Ni表示第i页中的文档对象个数,将式(8)投影至二维矩阵中,K表示矩阵的行数和列数,行数等于列数,二维矩阵的列坐标为:
[0032][0033]二维矩阵的行坐标为:
[0034][0035]进而可以得到本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于深度学习生成文档图像集的方法,其特征在于,包括以下步骤:步骤A、向量空间投影建模:将文档图像页面中的对象视为一个序列,序列中每一个节点对应一个对象的类型,得到文档对象序列和与其一一对应的对象类型序列,并将对象类型序列重排得到其对应的二维矩阵,从而将对象类型序列从一维向量空间投影至二维向量空间;步骤B、深度卷积生成对抗网络建模:所述对抗网络包含判别网络和生成网络;判别网络采用已有文档图像进行训练,其作用在于训练生成网络;生成网络训练好后,训练后的生成网络用以生成二维矩阵,旨在后续自动生成文档图像集;步骤C、训练网络模型参数:对步骤B构建的对抗网络进行训练并求解网络参数;将现有文档图像中的文档对象类型序列重排为二维矩阵,用于训练判别网络;并使用训练好的判别网络对生成网络进行训练;步骤D、生成对象类型序列:基于训练好的生成网络自动输出新的二维矩阵;然后,将该新的二维矩阵投影至一维向量空间,得到新的文档对象类型序列;步骤E、生成文档对象内容:采集各种文档对象数据,并根据步骤D生成新的文档对象类型序列,自动生成文档对象的具体内容;步骤F、将步骤E生成的文档转换成文档图像,生成文档图像集,所述文档图像集包含文档图像、文档对象坐标信息和文档对象具体内容。2.根据权利要求1所述的基于深度学习生成文档图像集的方法,其特征在于:所述步骤A中,所述对象的类型包括页眉、文本、图、图注、表格、公式、页码和页脚;(1)将文档图像页面中的若干个对象定义为文档对象序列,即:DO
i
,i=1,2,3...N
ꢀꢀ
(1)其中,DO
i
表示第i个文档对象;N表示文档对象的数量;并将与文档对象序列对应的类型序列定义为对象类型序列,即:y
i
,i=1,2,3...N
ꢀꢀ
(2)y
i
∈{Type
j
|j=1,2,3...M}
ꢀꢀ
(3)其中,y
i
表示第i个文档对象对应的类型,M表示对象类型的数量,Type
j
表示类型;(2)将每一页文档图像页面中的文档对象序列视为一个向量,将公式(1)和公式(2)表示为向量形式:DO=[DO1,DO2,DO3,...DO
N
]
ꢀꢀ
(4)Y=[y1,y...

【专利技术属性】
技术研发人员:史操许灿辉刘传琦程远志陶冶马兴录刘国柱
申请(专利权)人:青岛科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1