一种基于多模态和参考图像的黑白图像上色方法及终端技术

技术编号：39903395 阅读：8 留言：0更新日期：2023-12-30 13:18

本发明专利技术公开了一种基于多模态和参考图像的黑白图像上色方法及终端，包括通过数据库获取预设数量彩色图像及其对应的原始黑白图像和原始文本描述，得到训练集；将训练集的原始文本描述作为现有稳定扩散模型的输入，输出参考图像，并与训练集中的原始彩色图像进行比对得到最佳参考图；采用最佳参考图对现有稳定扩散模型进行融合修正，得到具有根据参考图像作为输入

全部详细技术资料下载

【技术实现步骤摘要】
一种基于多模态和参考图像的黑白图像上色方法及终端

[0001]本专利技术涉及图像处理
，尤其涉及一种基于多模态和参考图像的黑白图像上色方法及终端
。

技术介绍

[0002]现阶段黑白图像上色有两种主流方案：一是使用传统的人工上色，该方法能够最大程度的还原真实场景；二是使用一些算法技术，通过计算机强大的计算能力来恢复所需要的颜色信息
。
[0003]而采用计算机算法进行上色中，现有技术中最火热的是多模态学习方法，该方法不仅考虑图像的信息，还考虑与之相关的文本描述或其他模态的信息，这可以帮助模型更好地理解图像内容和上色需求
。
[0004]多模态学习方法通过收集多模态信息形成数据集，其中多模态信息包括黑白图像
、
彩色图像以及与这些图像相关的文本描述，文本描述可以是关于图像内容和颜色的信息；然后使用深度学习模型来处理多模态信息，一种常见的方式是使用基于
Transformer
架构的模型，该模型允许同时处理文本和图像数据；接着通过将文本描述转化为文本嵌入向量，以便将文本信息输入到模型中，这可以使用预训练的自然语言处理模型，如
BERT
等，来生成文本嵌入；再接着对黑白图像进行编码，以生成图像嵌入；最后将文本和黑白图像嵌入融合在一起，以获取跨模态的表示作为输入，生成彩色图像
。
[0005]但现有的多模态学习方法进行黑白图像上色中存在如下缺点：缺点1：文本描述和图像之间的模态不匹配问题可能会导致性能下降，例如文本描...

【技术保护点】

【技术特征摘要】
1.
一种基于多模态和参考图像的黑白图像上色方法，其特征在于，包括步骤：
S1、
通过数据库获取预设数量彩色图像及其对应的原始黑白图像和原始文本描述，得到训练集；
S2、
将所述训练集的原始文本描述作为现有稳定扩散模型的输入，输出参考图像，并与所述训练集中的原始彩色图像进行比对得到最佳参考图；
S3、
采用最佳参考图对现有所述稳定扩散模型进行融合修正；
S4、
基于修正后的所述稳定扩散模型对给定文字描述和
/
或参考图像的待上色黑白图像进行上色
。2.
根据权利要求1所述的一种基于多模态和参考图像的黑白图像上色方法，其特征在于，所述步骤
S2
具体为：
S21、
记所述训练集中的原始彩色图像为
(I
G1
,I
G2
,...,I
Gn
)、
原始黑白图像为
(I
gray1
,I
gray2
,...,I
grayn
)
以及原始文本描述为
(P
G1
,P
G2
,...,P
Gn
)
，其中
n≥5
；
S22、
将所述原始文本描述
(P
G1
,P
G2
,...,P
Gn
)
作为现有稳定扩散模型的输入，并给定
m
个不同的随机数种子，每个所述原始文本描述输出相应的
m
张不同输出图片分别记为
{I
p_11
,I
p_12
,I
p_1m
;I
p_21
,I
p_22
,I
p_2m
;...; I
p_n1
,I
p_n2
,I
p_nm
}
，最终得到
n
×
m
张所述输出图片，其中所述稳定扩散模型为现有能根据文本描述返回对应图片结果的多模态模型，
m≥5
；
S23、
将
n
张所述原始彩色图像
(I
G1
,I
G2
,...,I
Gn
)
分别通过
CLIP
模型的图像编码器进行分别编码，再将每个所述原始文本描述对应的
m
张所述输出图片也通过
CLIP
模型的图像编码器进行编码，得到编码结果
F
Gn
和
F
P_nm
如下公式（1）和（2）：（1）；（2）；其中，所述
CLIP
模型为基于图像和文本并行的多模态模型，
CLIP
encode
表示所述
CLIP
模型的图像编码器，
F
Gn
和
F
P_nm
分别表示所述原始彩色图像
(I
G1
,I
G2
,...,I
Gn
)
和所述输出图片
{I
p_11
,I
p_12
,I
p_1m
;I
p_21
,I
p_22
, I
p_2m
;...;I
p_n1
,I
p_n2
,I
p_nm
}
的对应编码的结果向量；
S24、
给定一张所述原始彩色图像
I
Gn
，比对编码结果
F
Gn
和其对应的
F
P_n1
到
F
P_nm
的相似度，得到与给定的所述原始彩色图像
I
Gn
相似度最高的所述输出图片，如下公式（3）：（3）；其中，
argmax
表示最大值对应的下标，
·
表示向量的内积计算，即计算
F
Gn
和
(F
p_n1
,F
p_n2
,...,F
p_nm
)
内每个编码进行内积计算的结果，取值最大的下标记作
P
，并记
P
对应的所述输出图片为相似度最高的所述输出图片，记为最佳参考图
I
P
，同时将所述最佳参考图
I
P
对应的所述原始彩色图像记为
I
G
、
所述原始黑白图像记为
I
gray
以及所述原始文本描述记为
P
G
；
S25、
重复步骤
S24
直至
n
张所述原始彩色图像均得到了所述最佳参考图
。3.
根据权利要求2所述的一种基于多模态和参考图像的黑白图像上色方法，其特征在于，所述步骤
S3
具体为：
S31、
在所述稳定扩散模型的
U
型网络结构编码器中添加使用所述最佳参考图
I
P
的相似图参考模块，将构成所述
U
型网络结构编码器的多个残差和注意力模块记作
EncodeBlock
i
，其中
i=(1,2,3...)
；
S32、...

【专利技术属性】
技术研发人员：浦佳祺，邓炜，童同，高钦泉，刘洪君，田甜，
申请(专利权)人：福建帝视科技集团有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人