改进FANnet生成网络的图像字符编辑方法技术

技术编号:29403518 阅读:13 留言:0更新日期:2021-07-23 22:41
本申请提出一种改进FANnet生成网络的图像字符编辑方法。首先,利用基于HC显著性检测算法的改进自适应字符分割模型,准确提取出用户所界定的图像字符;然后,根据FANnet生成网络,生成与源字符字体一致的目标字符二值图;最后,通过提出的颜色复杂度判别的局部颜色迁移模型,迁移源字符颜色至目标字符;从而,生成与源字符字体结构和颜色变化均高度一致的目标编辑修改字符,达到字符编辑目的。实验结果表明本申请方法优于现有算法。针对字体结构和颜色渐变分布比较复杂的实际场景图像字符,本发明专利技术亦十分有效,这对图像重利用、图像字符计算机自动纠错和文本信息重存储等有一定的理论意义和应用前景。

【技术实现步骤摘要】
改进FANnet生成网络的图像字符编辑方法
本专利技术属于图像识别
,特别是涉及一种改进FANnet生成网络的图像字符编辑方法。
技术介绍
当今国际化社会,作为国际通用语言的英文字符出现在众多公共场合;与英文字符具有相同几何结构特征的拼音字符也很重要。当这些字符出现在图像中,尤其图像风格复杂时,难以直接对其进行编辑修改。字体风格迁移与文字生成是人工智能的一个重要研究领域。不论是实景图还是电子效果图,总包含有大量文字信息。这些文字信息可以帮助读者更好理解图像中的上下文语义和场景信息。与文本中修改编辑文字不同,当一幅图像中的文字发生错误或需要修改时,直接在原图中进行修改非常困难。例如,一幅图像包含的有限文字中,可以提取的视觉信息数据不满足生成模型所需条件;在不同自然场景下,图像往往呈现出不同特征:亮度、对比度、阴影、透视形变和背景复杂度等。文字字体设计要求数据集内每一种文字的风格相同且具视觉一致性,建立这样的数据集往往需要消耗大量的人力和物力。如何通过有限规模的字符集,使计算机自动生成与源字符具有相同物理结构和视觉效果的其他字符是当前的研究热点。研究人员对图像文字的研究主要集中于文字识别方向,2005年,杨志华等人提出一种基于经验模式分解的汉字识别方法,通过对汉字常用笔画精简,做EMD分析,从而提出特征识别汉字。2011年,易剑等人提出一种基于颜色聚类和多帧融合的视频文字识别方法,2017年,丁明宇等人提出一种将深度学习和OCR相融合的一种商品参数文字检测方法。而针对文字生成研究领域,最先采用的是基于几何特征的文字合成算法。这种基于几何特征的算法只能用于特定的字体拓扑结构,无法生成大量不同字体的文字。随着生成对抗网络(GANs)模型的出现,文字生成问题主要采用基于生成对抗模型的相关算法来解决,即从一个特定或随机的数据集中针对特定文字生成未知文字。然而,即使基于GANs的相关算法可以预测目标文字,但是将其直接应用于实景图片依然面临着许多困难。首先,大多数基于GANs的字体生成算法需要对一个确定的源文字进行精准的识别。而在具有复杂背景的实景图中准确的文本申请字识别本身就极具挑战性。而且,文字识别过程中的误差累积会直接影响后续目标文字生成的准确性。其次,图像中的文本申请字往往融合了多种特征,例如:尺寸、颜色、结构等。受到光线、角度等外部条件的影响,图像中的文字将经历不同程度的透视形变(perspectivedistortion)。一些基于GANs的算法需要大量同一字体类型的观察数据来提高生成数据的置信度,同时在生成算法前需要进行严格的透视消除步骤。1998年,Shamir等提出了一种基于特征约束的字体设计算法。在这种方法中,需要通过用户交互来进行文字特征提取,消耗时间成本;2010年,Suveeranont等提出了一种基于实际图像文字的的相同文本字体生成算法,可以从用户自定义的实例中自动生成新字体。然而这种方法只注重字体的几何特征,忽略了字体形变等因素,从而生成的字体容易出现扭曲。随着深度学习技术的发展,研究人员开始采用深度学习技术来解决字体生成问题,2014年JoshuaB等提出的双线性映射(bilinearfactorization)可以将内容与风格特征进行分割并应用于字体生成。2015年,Huy等人提出采用概率统计(statisticalmodels)的方法将少量的字体集生成一套完整的字体。2016年,Baluja等人在成功地使用深度学习模型一小组字母上来区分字体,并生成相同风格的其他字母。Bernhardsson等以公开收集的5万字体作为训练集,通过调整隐变量(latentvariable)的参数来产生不同的字体。但是这种通过少量样本生成的结果存在很大的误差,例如在生成字体时遗漏了“Q”的尾部。2017年,Samaneh等提出了leave-one-out的训练方法,可以完成通过少量字母生成其他字母。但在该方法中生成的字体更加关注整体字体风格,对于文字内部颜色特征关注较少。2018年,Azadi等提出采用端到端的方式从少量已有艺术字符通过GAN生成相同风格的其他字符。ProjectNaptha是一款基于OCR的在线图像文字识别、提取、翻译、编辑、擦除的chrome插件。其主要功能是文字识别和提取,针对于其编辑功能,只是简单的进行图像文字识别和擦除后将修改文字替换上去,无法保证与原图像风格一致。2019年,吴亮通过设计三个网络:前景文字迁移网络,背景擦除网络,前景背景融合网络来实现实景图像文字编辑工作,但是在编辑过程中每一个网络中出现的差错都会在下一个网络中累积,并大量消耗成本。2020年,PrasunRoy等人首次提出基于CNN的文字生成网络(FANnet),实现了实景图像文字编辑的STEFFAN模型,但是由于其在源文字提取阶段无法很好地识别字体结构或颜色特征复杂的实景图像字符,因此FANnet准确率不高,无法很好地实现图像字符编辑工作。
技术实现思路
为解决
技术介绍
所提到的技术问题,本申请设计并实现一种可以直接在图像中编辑、修改文本字符的方法,以满足图像文字更替、修改等需求。其整体框架流程图,如图1所示。从图1可以看出,本申请图像字符编辑方法包括三个步骤:首先,准确提取图像中的源文字。即通过用户交互确定图像中需要修改的文本字符,采用基于对比度直方图(Histogrambasedcontrast,HC)显著性检测算法和自定义阈值分割算法的自适应目标检测模型来准确提取出图像中的源文字字符。其次,运用基于FANnet的生成网络生成与源字符字体结构一致的目标字符二值图。最后,采用基于颜色复杂度判别的自适应局部颜色迁移模型进行颜色迁移,生成最终目标字符图,以保证与源字符一致的结构特征与颜色特征。这里,采用了基于卷积神经网络(ConvolutionalNeuralNetwork,CNN)的文字生成网络(FontAdaptiveNeuralNetwork,FANnet),可以避免生成对抗网络(GenerativeAdversarialNetworks,GANs)方法中需要对图像中文本申请字事先进行精确检测识别的步骤。CNN对具有复杂视觉特征的图像进行风格迁移和结构生成等方面有着广泛的应用;不同于GANs,FANnet不需事先判定图像中的文字内容,目标字符生成的正确性主要取决于网络输入的源字符是否能够被准确分割。为保证源文字精确分割,本申请提出了一种基于HC显著性检测改进的自适应目标检测模型,在该模型中通过最大稳定极值区域(MaximallyStableExtrernalRegions,MSER)对图像文本区域进行检测;并根据实景图像的特点,自适应选择阈值分割算法或HC显著性检测算法来分割源字符。同时,为保证修改后的图像与原图像具有相同的视觉平滑性,本申请提出了一种基于颜色复杂度的自适应局部颜色迁移模型,保证目标文字与源文字具有相同的颜色特征;该颜色迁移模型不仅可以应用在纯色字体,对于具有渐变色或复杂颜色的字符颜色迁移亦具有良好的效果。最后,在MSRA-TD500、COCO-Text和ICDAR数据集上,展示本申请方法较本文档来自技高网
...

【技术保护点】
1.改进FANnet生成网络的图像字符编辑方法,其特征在于,所述方法包括以下步骤:/n(1)从图像中选择欲替换的源字母,并通过HC显著性检测算法和自定义阈值分割算法的自适应目标检测模型提取源字母的二值图;/n(2)通过FANnet生成网络生成与源字符字体结构一致的目标字符二值图。;/n(3)通过基于颜色复杂度的自适应局部颜色迁移模型对已得目标二值图进行颜色迁移后将源字母替换为生成字母。/n

【技术特征摘要】
1.改进FANnet生成网络的图像字符编辑方法,其特征在于,所述方法包括以下步骤:
(1)从图像中选择欲替换的源字母,并通过HC显著性检测算法和自定义阈值分割算法的自适应目标检测模型提取源字母的二值图;
(2)通过FANnet生成网络生成与源字符字体结构一致的目标字符二值图。;
(3)通过基于颜色复杂度的自适应局部颜色迁移模型对已得目标二值图进行颜色迁移后将源字母替换为生成字母。


2.根据权利要求1所述的字符编辑方法,其特征在于,步骤(1)中自适应目标检测模型为:



Δ(T)=Sr(THC)-Sr(TB)(7)
式中,IHC代表原图I经过HC算法处理后的的二值图;IB代表区域Ω的二值图,T代表区域Ω内的一个连通分量,Sr(.)代表对区域Ω经过源字母提取后的最小边界框,BT为连通分量的最小边界值;
源字母二值图定义为:



图像If包含选定区域Ω内所有的字母二值图。IM代表原图I经过MSER算法处理后得到的二值图;⊙代表矩阵的元素积。


3.根据权利要求2所述的字符编辑方法,其特征在于,基于颜色直方图对比度(HC)的目标检测算法为:
首先,将区域Ω规则化为Ω’作为HC的输入:



式中,map(.)分别代表区域Ω’;P代表区域Ω的四个定点坐标值,
在区域Ω’内有:



式中,R(.)表示颜色ci在区域Ω’内的显著值;n为区域Ω’内所含的颜色总数,wj表示颜色cj的权重,Dis(ci,cj)表示颜色ci和cj在CIEL*a*b*空间内的颜色距离度量,具体表示为:






式中,num(.)表示cj在区域Ω’出现的次数;表示cj在CIEL*a*b*空间中第k个分量的值;
使用平滑操作将相似颜色的显著值进行加权平均成为一个颜色集:



式中,表示颜色c与它相似值最高的k个颜色的距离度量,k取n的25%;
最后将颜色集的显著值按照其在空间像素点的实际位置还原提取出区域Ω’中的显著性目标,采用高斯滤波和像素值归一化对结果图进行平滑操作,减少噪声,得到经过HC操作后的字母灰度图后,采用OTSU算法对其进行二值化处理,得到二值掩码图IHC。


4.根据权利要求1所述的字符编辑方法,其特征在于,步骤(2)包括图像预处理,采用填充操作使获得相同横纵比mθ×mθ,其中,mθ=max(hθ,wθ),hθ和wθ分别代表边界框Bθ的长和宽;max(.)代表取二者较大值,即沿x轴和y轴分别用px和py填充生成规则化二值图Iθ。其中,px和py满足:



随后,对Iθ进行缩放操作,使其维度为64×64。


5.根据权利要求4所述的字符编辑方法,其特征在于,字体自适应生成神经网络含有两个不同的输入,分别是尺寸为64×64的源字母二值图和目标字母的标签,在网络的编码部分,输入的源字母图像通过滤波器分别为16、16和1的3个卷积层...

【专利技术属性】
技术研发人员:刘尚旺李名刘国奇袁培燕孙林
申请(专利权)人:河南师范大学
类型:发明
国别省市:河南;41

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1