漫画气泡识别训练、响应方法及其装置、设备、介质制造方法及图纸

技术编号：28378618 阅读：26 留言：0更新日期：2021-05-08 00:06

本申请公开一种漫画气泡识别训练、响应方法及其装置、设备、介质，其中所述训练方法包括：以生成对抗模型的生成器所用的图像分割模型从漫画原图中提取出气泡特征图；由该生成器中的融合网络将所述漫画原图分别与所提取的气泡特征图和预标记的气泡特征图进行融合，对应生成假值类型和真值类型的合成图；将所述合成图馈入该生成对抗模型的鉴别器实施训练，使其具备识别图片中所含气泡特征所属真假类别的能力；利用完成训练的鉴别器作为该生成器输出的合成图的真假类别判别依据，训练该图像分割模型，使其提升从漫画原图中提取气泡特征的准确率。本申请能以少量样本训练出适于从漫画图片中分割出包含其气泡特征的气泡高亮图的图像分割模型。

全部详细技术资料下载

【技术实现步骤摘要】
漫画气泡识别训练、响应方法及其装置、设备、介质
本申请属于图像识别技术，具体涉及一种漫画气泡识别训练、响应方法及其相应的漫画气泡识别、响应装置，以及相关电子设备和非易失性存储介质。
技术介绍
采用卷积神经网络来进行基于人工智能的图像识别的相关技术已经成熟。众所周知，人工智能的实现依赖于大数据及其算法，换言之，一个有效的神经网络，对其训练样本的稀疏性和样本总量往往存在依赖。在一种关于“气泡识别”的应用中，通过使用计算机视觉识别技术来高亮漫画图片中对话气泡。该方法主要用于辅助漫画领域进行光学文字识别(OCR)，以便提高漫画领域OCR的识别精度。传统气泡识别算法以“connected-components”技术为主，虽然算法简单，但执行算法需要定义许多苛刻条件(例如气泡必须是白色、气泡的形状特定)才能相对准确的识别气泡，因此难以在工程领域中发挥作用。随着深度学习在计算机视觉识别领域的广泛应用。以U-net为主的端对端“气泡识别“算法也由此而生。U-net是一种图像分割/高亮算法，主要应用于医疗影响领域，原本在高亮细胞，肿瘤等任务上被广泛使用。2019年，DavidDubray和JochenLaubrock发表论文(Dubray,David,andJochenLaubrock.DeepCNN-basedspeechballoondetectionandsegmentationforcomicbooks.2019InternationalConferenceonDocumentAnalysisandRe...

【技术保护点】
1.一种漫画气泡识别训练方法，其特征在于，包括如下步骤：/n以生成对抗模型的生成器所用的图像分割模型从漫画原图中提取出包含其气泡特征的气泡特征图；/n由该生成器中的融合网络将所述漫画原图分别与所提取的气泡特征图和预标记的气泡特征图进行融合，对应生成假值类型和真值类型的合成图；/n将所述合成图作为训练样本馈入该生成对抗模型的鉴别器实施训练，使其具备识别图片中所含气泡特征所属真假类别的能力；/n利用完成训练的鉴别器作为该生成器输出的合成图的真假类别判别依据，训练该生成器的图像分割模型，使其提升从漫画原图中提取气泡特征的准确率。/n

【技术特征摘要】
1.一种漫画气泡识别训练方法，其特征在于，包括如下步骤：
以生成对抗模型的生成器所用的图像分割模型从漫画原图中提取出包含其气泡特征的气泡特征图；
由该生成器中的融合网络将所述漫画原图分别与所提取的气泡特征图和预标记的气泡特征图进行融合，对应生成假值类型和真值类型的合成图；
将所述合成图作为训练样本馈入该生成对抗模型的鉴别器实施训练，使其具备识别图片中所含气泡特征所属真假类别的能力；
利用完成训练的鉴别器作为该生成器输出的合成图的真假类别判别依据，训练该生成器的图像分割模型，使其提升从漫画原图中提取气泡特征的准确率。

2.根据权利要求1所述的方法，其特征在于：所述图像分割模型从漫画原图中提取出包含气泡特征的气泡特征图的过程，包括：
将所述漫画原图馈入基于U-Net神经网络构建的所述图像分割模型的输入卷积层中进行局部特征提取，获得中间特征映射；
将所述中间特征映射经图像分割模型的编码路径中的多个编码器逐步压缩提取多尺度特征；
以所述多尺度特征为馈入特征，经图像分割模型的解码路径中的多个解码器逐步解码，逐级还原为更高分辨率的特征图，其中，每个解码器以其对应的一个编码器所获得的特征图为参照用于实施所述的还原；
将解码器的所有输出进行融合，获得包含该漫画原图的气泡特征的气泡特征图。

3.根据权利要求1所述的方法，其特征在于：融合网络将漫画原图与气泡特征图进行融合的过程，包括：
接收所述的气泡特征图及其对应的漫画原图，所述气泡特征图来源于所述图像分割模型的输出或其他外部存储地址；
采用以神经网络构成的单个神经元对该漫画原图和该气泡特征图分别关联权重参数做线性运算，实现将两者融合为同一张合成图；
将该合成图输出给所述的鉴别器。

4.根据权利要求1所述的方法，其特征在于，所述鉴别器的训练过程，包括：
对馈入的每种类别的合成图进行特征提取；
依据所提取的特征对合成图进行分类判别，获得对应的真值和假值判别结果，从而增强其判别能力；
根据判别结果修正其自身所使用的权重参数；
向生成对抗模型反向传播，相应修正所述生成器中的融合网络及图像分割模型的权重参数。

5.根据权利要求1至4中任意一项所述的方法，其特征在于，利用完成训练的鉴别器作为该生成器输出的合成图的真假类别判别依据的步骤中，所述鉴别器的判别过程，包括
对馈入的每种类别的合成图进行特征提取；
依据所提取的特征对合成图进行分类判别，获得对应的真值和假值判别结果；
冻结对其自身所使用的权重参...

【专利技术属性】
技术研发人员：姜博怀，杨铭，
申请(专利权)人：广州华多网络科技有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人