一种基于文本色彩描述与Transformer的灰度图像着色方法技术

技术编号:39271753 阅读:11 留言:0更新日期:2023-11-07 10:51
本发明专利技术涉及一种基于文本色彩描述与Transformer的灰度图像着色方法,属于灰度图像自动着色技术领域。本发明专利技术通过利用色彩语言描述文本信息辅助灰度图像着色,以满足用户对灰度图像着色的实际需求。本发明专利技术将色彩语言描述文本信息提炼为两类特征向量,更好的辅助灰度图像进行色彩的映射,实现自然语言描述对灰度图像的色彩编辑;将灰度图像空间信息将与文本描述色彩信息进行深度融合,利用视觉Transformer和残差注意力模块等模型设计方法,更好地提取图像的特征,提高了图像特征融合的效果,生成的着色结果更加清晰、自然。自然。自然。

【技术实现步骤摘要】
一种基于文本色彩描述与Transformer的灰度图像着色方法


[0001]本专利技术涉及一种基于文本色彩描述与Transformer的灰度图像着色方法,属于灰度图像自动着色


技术介绍

[0002]随着计算机视觉技术的发展,灰度图像着色成为了一个备受关注的研究领域。传统的灰度图像着色方法需要大量的人工干预,包括手动标记和修正,以及预处理相关操作,限制了灰度图像着色的应用范围。基于文本色彩描述的人工色彩信息输入是一种新颖的解决思路,核心思想是利用自然语言描述辅助灰度图像的着色。基于文本色彩描述的图像着色技术不仅可以对灰度图像进行色彩补充,还可以应用于特定图像的颜色信息替换,为图像颜色处理领域的研究提供发展空间。

技术实现思路

[0003]本专利技术要解决的技术问题是提供一种基于文本色彩描述与Transformer的灰度图像着色方法,用于解决现有对灰度图像自动着色效果较差的问题。
[0004]本专利技术的技术方案是:一种基于文本色彩描述与Transformer的灰度图像着色方法。该方法可以根据不同的文本色彩描述对灰度图像中的目标进行着色。相比于一般自动的着色方法,本专利技术考虑到了不同用户对灰度图像中不同目标的差异化的着色要求,将需要着色的灰度图像和文本色彩描述同时作为条件输入到生成器中,以满足用户输入的要求。本专利技术的关键在于将文本色彩描述作为用户着色输入,同时基于Transformer模型来处理文本与图像的特征关联,从而实现对目标图像的着色。
[0005]具体步骤为:Step 1:特征编码阶段Step 1.1:将待着色的灰度图像由默认的RGB色彩空间转化为CIE

Lab色彩空间,并提取灰度通道L,灰度通道中不仅包含所有的灰度图像信息,还包括了整幅原始图像的单维度空间信息。
[0006]Step 1.2:将Step1.1中得到的灰度通道L输入到图像编码器中,通过图像编码器将特征信息从低维提取到高维,获得包含空间特征信息的灰度图像特征。
[0007]Step1.3:将色彩语言描述文本输入到文本编码器,把色彩语言描述文本中的色彩实例信息进行特征提取,分别编码为颜色特征向量和实例特征向量。
[0008]Step1.4:将Step1.2和Step1.3中得到的灰度图像特征、颜色特征向量和实例特征向量按照通道维度水平拼接得到三者的特征组合。
[0009]Step2:色彩解码阶段Step2.1:将Step1.4中拼接得到的特征组合输入到灰度图像颜色

实例Transformer中,进行灰度空间特征与文本颜色和实例的特征深度融合得到特征图。
[0010]Step2.2:将Step2.1中得到的特征图输入到色彩解码器中,通过反卷积将高维特
征恢复为两个维度的色彩特征,输出为色彩通道a和色彩通道b。
[0011]Step2.3:将Step 1.1中原始的灰度通道L与Step2.2中得到的色彩通道a和色彩通道b进行合并,得到CIE

Lab色彩空间的着色结果,随后进行色彩空间转换得到RGB色彩空间的图像,最终得到彩色图像。
[0012]所述Step1.2中,将单维度的灰度通道L复制堆叠为三个维度,输入到基于ResNet的图像编码器中,将三个维度的灰度空间信息特征编码为512维,大小为28
×
28的灰度图像特征。
[0013]所述Step1.3中,对色彩语言描述文本按照预设15个词的长度进行中文分词操作,色彩语言描述文本长度不足15的用空白编码填充,再将分词后的结果进行编码;将编码后的色彩语言描述文本输入到文本编码器进行进一步的特征提取,提取出文本中的颜色描述和目标实例描述,分别映射为颜色特征向量和实例特征向量。文本编码器是对灰度图像的色彩语言描述文本进行色彩信息与实例信息的特征提取,本质上就是对色彩特征信息与实例特征信息进行编码,通过可训练的编码器参数,实现对色彩语言描述文本中色彩信息与实例信息的特征提取。
[0014]所述Step1.4中,灰度图像特征、颜色特征向量和实例特征向量的拼接按照分块的原则拼接,特征大小为28
×
28灰度图像特征分为16
×
16个特征块,每个特征块的大小为2
×
2,然后将颜色特征向量和实例特征向量的特征大小也分成为2
×
2,随后将图像特征块、颜色特征块与实例特征块按通道维度水平拼接。
[0015]所述Step2.1中,将特征组合以特征块的形式输入到灰度图像颜色

实例Transformer中,首先将传入的特征块进行特征块线性映射,然后将映射后的结果分别送入由12个残差注意力模块组成的模块组合中,进一步对特征进行提取。每个模块残差注意力模块都包含多头注意力机制、非动态量化线性映射模块、LayerNorm和MLP。十二个残差注意力模块的作用是进一步的对特征进行融合与提取,对灰度图像特征、颜色特征向量和实例特征向量按照通道维度拼接的特征组合进行进一步的特征融合与提取。多头注意力机制的权重是通过整个模型训练得到的,非动态量化线性映射模块是残差注意力模块中的一个线性映射操作,多头注意力机制能够更好的对特征进行提取,非动态量化线性映射可以对特征进行聚合实现特征的更好的提取。最后输出维度为512,大小为28
×
28的特征图。
[0016]所述Step2.2中,色彩编码器将Step2.1输出的特征图进行4层反卷积操作,将512维28
×
28的特征图重新映射为2维224
×
224的色彩特征图,即将特征图从高维空间映射到了CIE

Lab色彩空间下的ab二维通道。
[0017]本专利技术仅仅通过色彩语言描述文本信息,无需额外的其他信息就可以对灰度图像进行着色。同时基于 Transformer 模型对灰度图像特征、颜色特征向量和实例特征向量进行进一步的特征融合,使得三者的特征能够更好的对应,以此实现基于文本的更好的着色效果。与一般的基于文本的灰度图像着色方法相比,通过颜色特征向量和实例特征向量相结合的方式,可以将灰度图像中的实例对象更好的赋予指定的颜色,实现更好的着色效果。
[0018]本专利技术的有益效果是:结合文本色彩描述辅助灰度图像着色任务,实现基于文本色彩描述的灰度图像自动着色,符合用户需求的同时提高了着色结果的准确性。利用视觉Transformer和残差注意力模块等模型设计方法,更好地提取图像的特征,提高了图像特征融合的效果,生成的着色结果更加清晰、自然。此外,本专利技术具有广泛的应用价值,适用于多
种场景,如动漫着色、人像着色等。这一技术创新有望在数字娱乐、艺术创作、图像处理等领域发挥重要作用,具有巨大的研究意义和商业潜力。
附图说明
[0019]图1是本专利技术的网络架构图;图2是本专利技术的图像编码器模型架构图;图3是本专利技术的文本编码器模型架构图;图4是本专利技术的灰度图像颜色...

【技术保护点】

【技术特征摘要】
1.一种基于文本色彩描述与Transformer的灰度图像着色方法,其特征在于:Step 1:特征编码阶段Step 1.1:将待着色的灰度图像由默认的RGB色彩空间转化为CIE

Lab色彩空间,并提取灰度通道L;Step 1.2:将Step1.1中得到的灰度通道L输入到图像编码器中,获得包含空间特征信息的灰度图像特征;Step1.3:将色彩语言描述文本输入到文本编码器,把色彩语言描述文本中的色彩实例信息进行特征提取,分别编码为颜色特征向量和实例特征向量;Step1.4:将Step1.2和Step1.3中得到的灰度图像特征、颜色特征向量和实例特征向量特征按通道维度进行水平拼接得到特征组合;Step2:色彩解码阶段Step2.1:将Step1.4中拼接得到的特征组合输入到灰度图像颜色

实例Transformer中,进行灰度空间特征与文本颜色和实例的特征深度融合得到特征图;Step2.2:将Step2.1中得到的特征图输入到色彩解码器中,通过反卷积将高维特征恢复为两个维度的色彩特征,输出为色彩通道a和色彩通道b;Step2.3:将Step 1.1中原始的灰度通道L与Step2.2中得到的色彩通道a和色彩通道b进行合并,得到CIE

Lab色彩空间的着色结果,随后进行色彩空间转换得到RGB色彩空间的图像,最终得到彩色图像。2.根据权利要求1所述的基于文本色彩描述与Transformer的灰度图像着色方法,其特征在于:所述Step1.2中,将单维度的灰度通道L复制堆叠为三个维度,输入到基于ResNet的图像编码器中,将三个维度的灰度空间信息特征编码为512维,大小为28
×
28的灰度图像特征。3.根据权利要求1所述的基于文本色彩描述与Transformer的灰度图像着色方法,其特征在于:所述Step1.3中,对色彩语言描述文本按照...

【专利技术属性】
技术研发人员:甘健侯吴迪李金根韩晓瑜陈恳周菊香王俊马然
申请(专利权)人:云南师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1