一种基于文本交互的实例感知图像着色方法技术

技术编号：38903706 阅读：12 留言：0更新日期：2023-09-22 14:22

本发明专利技术提供的一种基于文本交互的实例感知图像上色方法，使用可学习的分组令牌，将颜色相近的图像块聚合作为实例表征，赋予了模型实例感知的能力，提高了文本控制下对图像中指定实例的着色效果；通过使用亮度通道增强的算法，干扰了图像在LAB颜色空间中亮度值和颜色值的统计相关性，使模型更高效地利用文本条件，增强了文本交互的效率；通过使用颜色对比损失函数，增强了图像块分组的准确性，提高了实例感知的效率，更加有效的完成基于文本交互的实例感知图像上色任务。的实例感知图像上色任务。的实例感知图像上色任务。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于文本交互的实例感知图像着色方法

[0001]本专利技术涉及互联网
，尤其涉及一种基于文本交互的实例感知图像着色技术。

技术介绍

[0002]图像上色旨在预测给定灰度图像中缺失的彩色通道，已被广泛用于黑白图像恢复、艺术创作和图像压缩。在过去，黑白照片是人们记录历史和回忆的主要方式。现在，随着科技的发展，人们希望将这些黑白照片转化为彩色照片以更好地还原历史场景和生活中的记忆。与此同时，图像上色还具有非常广泛的应用领域，例如在历史文化、艺术等领域中对于黑白图像的修复和还原，以及在医学影像领域中对于黑白图像的颜色增强和医学分析，在游戏领域帮助游戏开发者更快地创建游戏元素等。
[0003]图像上色的主要思路是从黑白图像中恢复缺失的颜色信息。这一过程需要通过深度学习等方法进行图像分析和色彩还原。现代的图像上色技术已经能够在一定程度上实现准确的颜色还原。图像上色可以帮助人们快速地创建彩色图像，节省时间和精力，帮助人们用于自动化生产，自动着色黑白图片或为产品设计提供快速的彩色样例，从而提高效率和准确性。
[0004]图像上色的主要方法可以分为两类：传统方法和深度学习方法。传统方法主要基于图像处理技术，其主要思路是根据黑白图像中的灰度值信息和已知的颜色信息进行颜色还原。深度学习方法则是通过建立深度神经网络模型，将黑白图像作为输入，输出对应的彩色图像。深度学习方法的优势在于能够自动学习图像特征，能够对黑白图像中的内容进行理解，从而实现更为准确的颜色还原。应用深度学习方法可以适应更加复杂的场景和任务，并且其准...

【技术保护点】

【技术特征摘要】
1.一种基于文本交互的实例感知图像着色方法，其特征在于，训练中使用可学习的分组令牌，将颜色相近的图像块聚合作为实例表征，并使用亮度通道增强的算法，该方法包括：步骤一、将RGB图像利用色彩空间变换映射到HSV颜色空间，对色调角度进行随机旋转操作，再将其变换到LAB空间，分离出亮度通道并做伽马变换，得到的即为与颜色具有弱统计相关性的增强灰度图。步骤二、将原始描述文本中描述实例的颜色词随机替换，得到反例文本，原始的描述语句作为正例文本。步骤三、随机初始化若干个可学习的高维向量，作为分组令牌，用以表征实例。步骤四、将灰度图划分为若干个大小相等的图像块并作序列化，输入到预训练视觉模型ViT，得到图像块序列的高维向量表示，作为图像块令牌。步骤五、将正例文本利用词典进行词元化切分，使用预训练语言模型BERT将文本词元序列映射为向量表示，作为正例文本词令牌。步骤六、将图像块令牌、正例文本词令牌、分组令牌拼接为一个序列，并给三种不同模态的令牌分别加上模态类型编码，得到基于正例的跨模态令牌序列；步骤七、将基于正例跨模态令牌序列输入到用于特征融合的分组Transformer中，对跨模态序列的特征进行融合，得到基于正例的特征融合跨模态序列；步骤八、将基于正例的特征融合跨模态序列拆分，把其中的分组令牌与图像块令牌输入到分组网络中，通过注意力机制，得到图像块令牌与分组令牌的对应关系矩阵，并把分组令牌与对应的图像块令牌相加，得到基于正例的实例表征。步骤九、将步骤五中的正例文本替换为负例文本，重复步骤六、步骤七和步骤八，得到基于负例的实例表征和词令牌，计算颜色对比损失函数。步骤十、将序列化的图像块令牌重新转化为分布在二维空间中的图像特征，并利用反卷积上采样网络将图像特征上采样到原始图像分辨率，预测颜色通道值，计算颜色回归损失函数。步骤十一、将颜色对比损失函数和颜色回归损失函数进行加权求和，得到整体损失函数，使用反向传播算法(Back Propagation,BP)计算梯度，并使用Adam优化器优化整体损失函数更新模型各层权重。2.如权利要求1所述的方法，其特征在于，非训练情况下，进行文本交互的图像着色时，将步骤二、步骤九、步骤十一除去，并将步骤一、步骤三、步骤十予以替换，替换如下：步骤一、将待上色的灰度图作为输入；步骤三、用优化后的作为分组令牌表征实例。步骤十、将序列化的图像块令牌重新转化为分布在二维空间中的图像特征，并利用卷积上采样网络将图像特征上采样到原始图像分辨率，预测颜色通道值，将亮度通道和颜色通道拼接并转化为RGB图像。3.如权利要求1所述的方法，其特征在于，所述步骤一中，色调角度的随机旋转变换如下：
其中，F
rotate
是角度旋转操作，λ是旋转角度，是原始图像的在HSV空间中的色调值、饱和度值、亮度值，I
r
是色调变换的结果；其中，伽马变换的计算如下：其中，A是缩放系数，γ为伽马因子，I
g
是伽马变换前的灰度图，是伽马变换后的结果。4.如权利要求1所述的方法，其特征在于，所述步骤六中，不同的令牌需要加上模态编码的以便模型区分，计算过程如下：T
′
img
＝T
img
+E
img
T
′
lag
＝T
lag
+E
lag
T
′
grp
＝T
grp

【专利技术属性】
技术研发人员：李思，施柏鑫，常征，翁书晨，张沛瑄，
申请(专利权)人：北京邮电大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人