漫画气泡识别训练、响应方法及其装置、设备、介质制造方法及图纸

技术编号:28378618 阅读:26 留言:0更新日期:2021-05-08 00:06
本申请公开一种漫画气泡识别训练、响应方法及其装置、设备、介质,其中所述训练方法包括:以生成对抗模型的生成器所用的图像分割模型从漫画原图中提取出气泡特征图;由该生成器中的融合网络将所述漫画原图分别与所提取的气泡特征图和预标记的气泡特征图进行融合,对应生成假值类型和真值类型的合成图;将所述合成图馈入该生成对抗模型的鉴别器实施训练,使其具备识别图片中所含气泡特征所属真假类别的能力;利用完成训练的鉴别器作为该生成器输出的合成图的真假类别判别依据,训练该图像分割模型,使其提升从漫画原图中提取气泡特征的准确率。本申请能以少量样本训练出适于从漫画图片中分割出包含其气泡特征的气泡高亮图的图像分割模型。

【技术实现步骤摘要】
漫画气泡识别训练、响应方法及其装置、设备、介质
本申请属于图像识别技术,具体涉及一种漫画气泡识别训练、响应方法及其相应的漫画气泡识别、响应装置,以及相关电子设备和非易失性存储介质。
技术介绍
采用卷积神经网络来进行基于人工智能的图像识别的相关技术已经成熟。众所周知,人工智能的实现依赖于大数据及其算法,换言之,一个有效的神经网络,对其训练样本的稀疏性和样本总量往往存在依赖。在一种关于“气泡识别”的应用中,通过使用计算机视觉识别技术来高亮漫画图片中对话气泡。该方法主要用于辅助漫画领域进行光学文字识别(OCR),以便提高漫画领域OCR的识别精度。传统气泡识别算法以“connected-components”技术为主,虽然算法简单,但执行算法需要定义许多苛刻条件(例如气泡必须是白色、气泡的形状特定)才能相对准确的识别气泡,因此难以在工程领域中发挥作用。随着深度学习在计算机视觉识别领域的广泛应用。以U-net为主的端对端“气泡识别“算法也由此而生。U-net是一种图像分割/高亮算法,主要应用于医疗影响领域,原本在高亮细胞,肿瘤等任务上被广泛使用。2019年,DavidDubray和JochenLaubrock发表论文(Dubray,David,andJochenLaubrock.DeepCNN-basedspeechballoondetectionandsegmentationforcomicbooks.2019InternationalConferenceonDocumentAnalysisandRecognition(ICDAR).IEEE,2019.URL),将U-net技术运用到气泡识别上,针对气泡识别的需求,提出一种基于U-net实现的图像分割模型,凭借U-net强大的拟合能力取得了不错的效果。同时,其自身端对端黑盒子的特性也降低了气泡提取流程的复杂度。尽管如此,由于训练并收敛一个U-net模型,需要依赖大量的打标数据,在DavidDebray和JochenLaubrock提出的实测数据中也显示,即使提供750张样本也难以使其提出的图像分割模型收敛,因此生产这一图像分割模型的训练成本明显高于传统方法。由此可见,如何持续优化气泡识别相关技术,进一步降低训练相关模型的样本总量从而降低其生产成本,对于本领域而言,有其积极意义。
技术实现思路
本申请的目的之一,旨在提供一种漫画气泡识别训练方法及其各自相应的装置、电子设备、非易失性存储介质。相应的,本申请的目的之一进一步提供一种漫画气泡识别响应方法及其各自相应的装置、电子设备、非易失性存储介质。为满足本申请的各个目的,本申请采用如下技术方案:适应于本申请的目的之一而提供的一种漫画气泡识别训练方法,包括如下步骤:以生成对抗模型的生成器所用的图像分割模型从漫画原图中提取出包含其气泡特征的气泡特征图;由该生成器中的融合网络将所述漫画原图分别与所提取的气泡特征图和预标记的气泡特征图进行融合,对应生成假值类型和真值类型的合成图;将所述合成图作为训练样本馈入该生成对抗模型的鉴别器实施训练,使其具备识别图片中所含气泡特征所属真假类别的能力;利用完成训练的鉴别器作为该生成器输出的合成图的真假类别判别依据,训练该生成器的图像分割模型,使其提升从漫画原图中提取气泡特征的准确率。部分实施例中,所述图像分割模型从漫画原图中提取出包含气泡特征的气泡特征图的过程,包括:将所述漫画原图馈入基于U-Net神经网络构建的所述图像分割模型的输入卷积层中进行局部特征提取,获得中间特征映射;将所述中间特征映射经图像分割模型的编码路径中的多个编码器逐步编码提取多尺度特征;以所述多尺度特征为馈入特征,经图像分割模型的解码路径中的多个解码器逐步解码,逐级还原为更高分辨率的特征图,其中,每个解码器以其对应的一个编码器所获得的特征图为参照用于实施所述的还原;将解码器的所有输出进行融合,获得包含该漫画原图的气泡特征的气泡特征图。部分实施例中,融合网络将漫画原图与气泡特征图进行融合的过程,包括:接收所述的气泡特征图及其对应的漫画原图,所述气泡特征图来源于所述图像分割模型的输出或其他外部存储地址;采用以神经网络构成的单个神经元对该漫画原图和该气泡特征图分别关联权重参数做线性运算,实现将两者融合为同一张合成图;将该合成图输出给所述的鉴别器。部分实施例中,所述鉴别器的训练过程,包括:对馈入的每种类别的合成图进行特征提取;依据所提取的特征对合成图进行分类判别,获得对应的真值和假值判别结果,从而增强其判别能力;根据判别结果修正其自身所使用的权重参数;向生成对抗模型反向传播,相应修正所述生成器中的融合网络及图像分割模型的权重参数。部分实施例中,利用完成训练的鉴别器作为该生成器输出的合成图的真假类别判别依据的步骤中,所述鉴别器的判别过程,包括:对馈入的每种类别的合成图进行特征提取;依据所提取的特征对合成图进行分类判别,获得对应的真值和假值判别结果;冻结对其自身所使用的权重参数的修正;根据判别结果向生成对抗模型反向传播,相应修正所述生成器中的融合网络及图像分割模型的权重参数。适应本申请的目的之一而提供的一种漫画气泡识别训练装置,其包括:气泡分割模块,用于以生成对抗模型的生成器所用的图像分割模型从漫画原图中提取出包含其气泡特征的气泡特征图;图像融合模块,用于由该生成器中的融合网络将所述漫画原图分别与所提取的气泡特征图和预标记的气泡特征图进行融合,对应生成假值类型和真值类型的合成图;辨别训练模块,用于将所述合成图作为训练样本馈入该生成对抗模型的鉴别器实施训练,使其具备识别图片中所含气泡特征所属真假类别的能力;生成训练模块,用于利用完成训练的鉴别器作为该生成器输出的合成图的真假类别判别依据,训练该生成器的图像分割模型,使其提升从漫画原图中提取气泡特征的准确率。适应本申请目的之一而提供的一种漫画气泡识别响应方法,包括如下步骤:将待识别的漫画图片输入预训练的图像分割模型中进行图像分割,获得该漫画图片中所包含的气泡特征图;根据所述气泡特征图与所述漫画图片的对应关系获取该漫画图片中的文字图像;对所述文字图像进行光学识别,以将其转换输出为计算机可识别的文字信息;其中,所述图像分割模型按照如下具体步骤进行迭代实现预训练:以生成对抗模型的生成器所用的图像分割模型从漫画原图中提取出包含其气泡特征的气泡特征图;由该生成器中的融合网络将所述漫画原图分别与所提取的气泡特征图和预标记的气泡特征图进行融合,对应生成假值类型和真值类型的合成图;将所述合成图作为训练样本馈入该生成对抗模型的鉴别器实施训练,使其具备识别图片中所含气泡特征所属真假类别的能力;利用完成训练的鉴别器作为该生成器输出的合成图的真假类别判别依据,训练该生成器的图像分割模型,使本文档来自技高网
...

【技术保护点】
1.一种漫画气泡识别训练方法,其特征在于,包括如下步骤:/n以生成对抗模型的生成器所用的图像分割模型从漫画原图中提取出包含其气泡特征的气泡特征图;/n由该生成器中的融合网络将所述漫画原图分别与所提取的气泡特征图和预标记的气泡特征图进行融合,对应生成假值类型和真值类型的合成图;/n将所述合成图作为训练样本馈入该生成对抗模型的鉴别器实施训练,使其具备识别图片中所含气泡特征所属真假类别的能力;/n利用完成训练的鉴别器作为该生成器输出的合成图的真假类别判别依据,训练该生成器的图像分割模型,使其提升从漫画原图中提取气泡特征的准确率。/n

【技术特征摘要】
1.一种漫画气泡识别训练方法,其特征在于,包括如下步骤:
以生成对抗模型的生成器所用的图像分割模型从漫画原图中提取出包含其气泡特征的气泡特征图;
由该生成器中的融合网络将所述漫画原图分别与所提取的气泡特征图和预标记的气泡特征图进行融合,对应生成假值类型和真值类型的合成图;
将所述合成图作为训练样本馈入该生成对抗模型的鉴别器实施训练,使其具备识别图片中所含气泡特征所属真假类别的能力;
利用完成训练的鉴别器作为该生成器输出的合成图的真假类别判别依据,训练该生成器的图像分割模型,使其提升从漫画原图中提取气泡特征的准确率。


2.根据权利要求1所述的方法,其特征在于:所述图像分割模型从漫画原图中提取出包含气泡特征的气泡特征图的过程,包括:
将所述漫画原图馈入基于U-Net神经网络构建的所述图像分割模型的输入卷积层中进行局部特征提取,获得中间特征映射;
将所述中间特征映射经图像分割模型的编码路径中的多个编码器逐步压缩提取多尺度特征;
以所述多尺度特征为馈入特征,经图像分割模型的解码路径中的多个解码器逐步解码,逐级还原为更高分辨率的特征图,其中,每个解码器以其对应的一个编码器所获得的特征图为参照用于实施所述的还原;
将解码器的所有输出进行融合,获得包含该漫画原图的气泡特征的气泡特征图。


3.根据权利要求1所述的方法,其特征在于:融合网络将漫画原图与气泡特征图进行融合的过程,包括:
接收所述的气泡特征图及其对应的漫画原图,所述气泡特征图来源于所述图像分割模型的输出或其他外部存储地址;
采用以神经网络构成的单个神经元对该漫画原图和该气泡特征图分别关联权重参数做线性运算,实现将两者融合为同一张合成图;
将该合成图输出给所述的鉴别器。


4.根据权利要求1所述的方法,其特征在于,所述鉴别器的训练过程,包括:
对馈入的每种类别的合成图进行特征提取;
依据所提取的特征对合成图进行分类判别,获得对应的真值和假值判别结果,从而增强其判别能力;
根据判别结果修正其自身所使用的权重参数;
向生成对抗模型反向传播,相应修正所述生成器中的融合网络及图像分割模型的权重参数。


5.根据权利要求1至4中任意一项所述的方法,其特征在于,利用完成训练的鉴别器作为该生成器输出的合成图的真假类别判别依据的步骤中,所述鉴别器的判别过程,包括
对馈入的每种类别的合成图进行特征提取;
依据所提取的特征对合成图进行分类判别,获得对应的真值和假值判别结果;
冻结对其自身所使用的权重参...

【专利技术属性】
技术研发人员:姜博怀杨铭
申请(专利权)人:广州华多网络科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1