一种基于文本交互的实例感知图像着色方法技术

技术编号:38903706 阅读:12 留言:0更新日期:2023-09-22 14:22
本发明专利技术提供的一种基于文本交互的实例感知图像上色方法,使用可学习的分组令牌,将颜色相近的图像块聚合作为实例表征,赋予了模型实例感知的能力,提高了文本控制下对图像中指定实例的着色效果;通过使用亮度通道增强的算法,干扰了图像在LAB颜色空间中亮度值和颜色值的统计相关性,使模型更高效地利用文本条件,增强了文本交互的效率;通过使用颜色对比损失函数,增强了图像块分组的准确性,提高了实例感知的效率,更加有效的完成基于文本交互的实例感知图像上色任务。的实例感知图像上色任务。的实例感知图像上色任务。

【技术实现步骤摘要】
一种基于文本交互的实例感知图像着色方法


[0001]本专利技术涉及互联网
,尤其涉及一种基于文本交互的实例感知图像着色技术。

技术介绍

[0002]图像上色旨在预测给定灰度图像中缺失的彩色通道,已被广泛用于黑白图像恢复、艺术创作和图像压缩。在过去,黑白照片是人们记录历史和回忆的主要方式。现在,随着科技的发展,人们希望将这些黑白照片转化为彩色照片以更好地还原历史场景和生活中的记忆。与此同时,图像上色还具有非常广泛的应用领域,例如在历史文化、艺术等领域中对于黑白图像的修复和还原,以及在医学影像领域中对于黑白图像的颜色增强和医学分析,在游戏领域帮助游戏开发者更快地创建游戏元素等。
[0003]图像上色的主要思路是从黑白图像中恢复缺失的颜色信息。这一过程需要通过深度学习等方法进行图像分析和色彩还原。现代的图像上色技术已经能够在一定程度上实现准确的颜色还原。图像上色可以帮助人们快速地创建彩色图像,节省时间和精力,帮助人们用于自动化生产,自动着色黑白图片或为产品设计提供快速的彩色样例,从而提高效率和准确性。
[0004]图像上色的主要方法可以分为两类:传统方法和深度学习方法。传统方法主要基于图像处理技术,其主要思路是根据黑白图像中的灰度值信息和已知的颜色信息进行颜色还原。深度学习方法则是通过建立深度神经网络模型,将黑白图像作为输入,输出对应的彩色图像。深度学习方法的优势在于能够自动学习图像特征,能够对黑白图像中的内容进行理解,从而实现更为准确的颜色还原。应用深度学习方法可以适应更加复杂的场景和任务,并且其准确性和稳定性更高。并且,深度学习方法能够利用大量的数据进行训练,并且可以通过不断迭代优化模型来得到更好的结果。图像上色的实现方法主要有以下几种:首先是图像自动上色,使用计算机算法自动将灰度图像转换为彩色图像;其次是基于语言的上色,允许用户通过自然语言描述指导图像的上色;最后是交互式上色,允许用户在实时或者近实时的环境下参与图像上色的过程。
[0005]基于语言的上色旨在在用户提供的文本的指导下产生视觉效果和描述一致的结果。其主要目的是让计算机根据自然语言描述自动为黑白图片上色,使其具有更好的视觉效果和表现力。此任务最关键的阶段是建立语言描述中的集合与图像中的区域之间的对应关系,将自然语言描述中的颜色信息与颜色库中的颜色进行匹配,以便将自然语言描述转换为颜色值。
[0006]如图1所示,现有技术之一的“基于颜色对象分离条件(Color

object Decoupled Conditions)的文本指导图像着色技术”文章中,引入了一种对象颜色对应矩阵预测器(OCCM)和一种新的注意力转移模块(ATM):
[0007]首先,为了解决颜色对象耦合问题,采用双仿射机制来预测对象颜色对应矩阵(OCCM),其次,通过提出一个新的注意力转移模块(ATM),帮助对象颜色对应矩阵(OCCM)将
视觉区域和名词之间的对应关系转换为区域和形容词之间的对应,最后,采用了软门控注入模块(SIM)来确保颜色不会应用于描述中没有提到颜色的对象,通过解耦颜色和对象,将指定的颜色词正确应用于对象。
[0008]如图2所示,现有技术之二的“基于颜色对象解耦的Transformer(Color

object Decoupling Transformer)的文本指导图像着色技术”文章统一了图像和语言的模态,并进一步随着图像特征以从粗到细的方式进行上色,
[0009]首先,利用解耦的令牌编码器,将图像和语言编码为令牌,以便将图像和文本统一在同一个模态中,有助于弥合模态之间的巨大差距。给定灰度图,并将其整形成N个图像块,分辨率为(P,P),并将其放入标准的VIT中。使用BERT作为语言编码器,由于基于BERT构建字典,这样模型就包含了大量的词汇,即使从未出现在训练数据集中的孤立单词也将被分配一个预训练的嵌入向量。
[0010]其次,在对图像和语言进行编码后,我们对语言条件进行解耦,采用多层感知器(MLP)将图像标记映射到潜在空间,另外两个多层感知器(MLP)将语言标记分别转换到对象空间和颜色空间。通过颜色对象解耦转换器,解耦的语言标记的语义随着图像特征从粗到细的演变,避免了不准确的语言表示问题。
[0011]最后,利用解耦注意力以确保解耦语言标记和图像标记之间的交互。对于自注意力头,每个模态的表征计算与自身的相似性,以提取高级全局特征;而对于交叉注意力头,标记从其他模态标记中提示语义。并且使用预测的对象颜色对应矩阵(OCCM)以将正确的颜色应用于相应的对象位置。
[0012]专利技术人在研究的过程中发现:对于“基于颜色对象分离条件
[0013](Color

object Decoupled Conditions)的文本指导图像着色技术”、“基于颜色对象解耦的Transformer(Color

object Decoupling Transformer)的文本指导图像着色技术”现有技术中:
[0014]1、针对图像上色任务,对目标数据集的要求较严格,需要进行物体和颜色的对应;
[0015]2、仅考虑了物体和颜色的对应关系,没有进一步的对同一类别的不同物体实例进行建模;
[0016]由于上述技术问题导致于现有技术中存在以下缺点:
[0017]1、需要标注文本中的颜色和物体的对应关系,需要花费较大的时间和人力成本,应用场景收到限制;
[0018]2、缺乏实例感知的能力,尤其是对于同一类别的不同实例的区分能力较差,导致在文本指导的实例级着色场景下性能较差。

技术实现思路

[0019]为了解决上述技术问题,本专利技术提供了一种基于文本交互的实例感知图像着色方法,引入可学习的分组令牌将颜色相近的图像块分组作为实例表示,提出了亮度通道增强方法和颜色对比损失来增强模型的鲁棒性并优化图像块的聚合结果,同时,设计了一种分组Transformer,通过内循环和外循环的方式实现分组令牌、图像块特征、文本特征的跨模态特征交互,提升了基于文本交互的图像着色方法的性能。
[0020]本专利技术提供了一种基于文本交互的实例感知图像着色方法,在模型训练时,该方
法包括:
[0021]步骤一、将RGB图像利用色彩空间变换映射到HSV颜色空间,对色调角度进行随机旋转操作,再将其变换到LAB空间,分离出亮度通道并做伽马变换,得到的即为与颜色具有弱统计相关性的增强灰度图。
[0022]步骤二、将原始描述文本中描述实例的颜色词随机替换,得到反例文本,原始的描述语句作为正例文本。
[0023]步骤三、随机初始化若干个可学习的高维向量,作为分组令牌,用以表征实例。
[0024]步骤四、将灰度图划分为若干个大小相等的图像块并作序列化,输入到预训练视觉模型ViT,得到图像块序列的高维向量表示,作为图像块令牌。
[0025]步骤五、将正例文本利用词典进行词元化切分,使用预训练语言模型本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于文本交互的实例感知图像着色方法,其特征在于,训练中使用可学习的分组令牌,将颜色相近的图像块聚合作为实例表征,并使用亮度通道增强的算法,该方法包括:步骤一、将RGB图像利用色彩空间变换映射到HSV颜色空间,对色调角度进行随机旋转操作,再将其变换到LAB空间,分离出亮度通道并做伽马变换,得到的即为与颜色具有弱统计相关性的增强灰度图。步骤二、将原始描述文本中描述实例的颜色词随机替换,得到反例文本,原始的描述语句作为正例文本。步骤三、随机初始化若干个可学习的高维向量,作为分组令牌,用以表征实例。步骤四、将灰度图划分为若干个大小相等的图像块并作序列化,输入到预训练视觉模型ViT,得到图像块序列的高维向量表示,作为图像块令牌。步骤五、将正例文本利用词典进行词元化切分,使用预训练语言模型BERT将文本词元序列映射为向量表示,作为正例文本词令牌。步骤六、将图像块令牌、正例文本词令牌、分组令牌拼接为一个序列,并给三种不同模态的令牌分别加上模态类型编码,得到基于正例的跨模态令牌序列;步骤七、将基于正例跨模态令牌序列输入到用于特征融合的分组Transformer中,对跨模态序列的特征进行融合,得到基于正例的特征融合跨模态序列;步骤八、将基于正例的特征融合跨模态序列拆分,把其中的分组令牌与图像块令牌输入到分组网络中,通过注意力机制,得到图像块令牌与分组令牌的对应关系矩阵,并把分组令牌与对应的图像块令牌相加,得到基于正例的实例表征。步骤九、将步骤五中的正例文本替换为负例文本,重复步骤六、步骤七和步骤八,得到基于负例的实例表征和词令牌,计算颜色对比损失函数。步骤十、将序列化的图像块令牌重新转化为分布在二维空间中的图像特征,并利用反卷积上采样网络将图像特征上采样到原始图像分辨率,预测颜色通道值,计算颜色回归损失函数。步骤十一、将颜色对比损失函数和颜色回归损失函数进行加权求和,得到整体损失函数,使用反向传播算法(Back Propagation,BP)计算梯度,并使用Adam优化器优化整体损失函数更新模型各层权重。2.如权利要求1所述的方法,其特征在于,非训练情况下,进行文本交互的图像着色时,将步骤二、步骤九、步骤十一除去,并将步骤一、步骤三、步骤十予以替换,替换如下:步骤一、将待上色的灰度图作为输入;步骤三、用优化后的作为分组令牌表征实例。步骤十、将序列化的图像块令牌重新转化为分布在二维空间中的图像特征,并利用卷积上采样网络将图像特征上采样到原始图像分辨率,预测颜色通道值,将亮度通道和颜色通道拼接并转化为RGB图像。3.如权利要求1所述的方法,其特征在于,所述步骤一中,色调角度的随机旋转变换如下:
其中,F
rotate
是角度旋转操作,λ是旋转角度,是原始图像的在HSV空间中的色调值、饱和度值、亮度值,I
r
是色调变换的结果;其中,伽马变换的计算如下:其中,A是缩放系数,γ为伽马因子,I
g
是伽马变换前的灰度图,是伽马变换后的结果。4.如权利要求1所述的方法,其特征在于,所述步骤六中,不同的令牌需要加上模态编码的以便模型区分,计算过程如下:T

img
=T
img
+E
img
T

lag
=T
lag
+E
lag
T

grp
=T
grp

【专利技术属性】
技术研发人员:李思施柏鑫常征翁书晨张沛瑄
申请(专利权)人:北京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1