一种基于多模态和参考图像的黑白图像上色方法及终端技术

技术编号:39903395 阅读:8 留言:0更新日期:2023-12-30 13:18
本发明专利技术公开了一种基于多模态和参考图像的黑白图像上色方法及终端,包括通过数据库获取预设数量彩色图像及其对应的原始黑白图像和原始文本描述,得到训练集;将训练集的原始文本描述作为现有稳定扩散模型的输入,输出参考图像,并与训练集中的原始彩色图像进行比对得到最佳参考图;采用最佳参考图对现有稳定扩散模型进行融合修正,得到具有根据参考图像作为输入

【技术实现步骤摘要】
一种基于多模态和参考图像的黑白图像上色方法及终端


[0001]本专利技术涉及图像处理
,尤其涉及一种基于多模态和参考图像的黑白图像上色方法及终端


技术介绍

[0002]现阶段黑白图像上色有两种主流方案:一是使用传统的人工上色,该方法能够最大程度的还原真实场景;二是使用一些算法技术,通过计算机强大的计算能力来恢复所需要的颜色信息

[0003]而采用计算机算法进行上色中,现有技术中最火热的是多模态学习方法,该方法不仅考虑图像的信息,还考虑与之相关的文本描述或其他模态的信息,这可以帮助模型更好地理解图像内容和上色需求

[0004]多模态学习方法通过收集多模态信息形成数据集,其中多模态信息包括黑白图像

彩色图像以及与这些图像相关的文本描述,文本描述可以是关于图像内容和颜色的信息;然后使用深度学习模型来处理多模态信息,一种常见的方式是使用基于
Transformer
架构的模型,该模型允许同时处理文本和图像数据;接着通过将文本描述转化为文本嵌入向量,以便将文本信息输入到模型中,这可以使用预训练的自然语言处理模型,如
BERT
等,来生成文本嵌入;再接着对黑白图像进行编码,以生成图像嵌入;最后将文本和黑白图像嵌入融合在一起,以获取跨模态的表示作为输入,生成彩色图像

[0005]但现有的多模态学习方法进行黑白图像上色中存在如下缺点:缺点1:文本描述和图像之间的模态不匹配问题可能会导致性能下降,例如文本描述中内容和图像内容存在不一致,则容易导致没有明显的上色效果或者上色的负效果

[0006]缺点2:仅使用单一的文本描述可能存在可控性不足的问题,会出现某些场景下文本描述不够直观导致和最终期望的结果出现较大的差异


技术实现思路

[0007]本专利技术所要解决的技术问题是:提供一种基于多模态和参考图像的黑白图像上色方法及终端,能确保上色照片更加真实

颜色分布更加合理

[0008]为了解决上述技术问题,本专利技术采用的技术方案为:一种基于多模态和参考图像的黑白图像上色方法,包括步骤:
S1、
通过数据库获取预设数量彩色图像及其对应的原始黑白图像和原始文本描述,得到训练集;
S2、
将所述训练集的原始文本描述作为现有稳定扩散模型的输入,输出参考图像,并与所述训练集中的原始彩色图像进行比对得到最佳参考图;
S3、
采用最佳参考图对现有所述稳定扩散模型进行融合修正;
S4、
基于修正后的所述稳定扩散模型对给定文字描述和
/
或参考图像的待上色黑白图像进行上色

[0009]为了解决上述技术问题,本专利技术采用的另一个技术方案为:一种基于多模态和参考图像的黑白图像上色终端,包括存储器

处理器和存储在存储器上并可在处理器上运行的计算机程序,所述处理器在执行所述计算机程序时实现上述的一种基于多模态和参考图像的黑白图像上色方法中的步骤

[0010]本专利技术的有益效果在于:通过先获取预设数量现有素材
——
原始彩色图像及其对应的原始黑白图像和原始文本描述,作为多模态数据组成训练集,对现有实现根据文本返回图片结果的稳定扩散模型进行训练和融合修正,以解决了现有仅通过文本描述上色可能出现描述部分和上色的图像内容不一致的问题,能够通过将文本描述转化为最佳参考图的形式,补充文本描述缺失的问题,最终能够基于融合修正后的稳定扩散模型实现对不仅根据文字描述

还能根据用户提供的参考图像对待上色的黑白图像输出上色结果,且融合修正后的稳定扩散模型能实现使用文本描述和参考图片一同指导上色,有效确保上色照片更加真实

颜色分布更加合理

附图说明
[0011]图1为本专利技术实施例的一种基于多模态和参考图像的黑白图像上色方法的流程图;图2为本专利技术实施例的一种基于多模态和参考图像的黑白图像上色终端的结构示意图

[0012]标号说明:
1、
一种基于多模态和参考图像的黑白图像上色终端;
2、
存储器;
3、
处理器

具体实施方式
[0013]为详细说明本专利技术的
技术实现思路


所实现目的及效果,以下结合实施方式并配合附图予以说明

[0014]请参照图1,一种基于多模态和参考图像的黑白图像上色方法,包括步骤:
S1、
通过数据库获取预设数量彩色图像及其对应的原始黑白图像和原始文本描述,得到训练集;
S2、
将所述训练集的原始文本描述作为现有稳定扩散模型的输入,输出参考图片,并与所述训练集中的原始彩色图像进行比对得到最佳参考图;
S3、
采用最佳参考图对现有所述稳定扩散模型进行融合修正;
S4、
基于修正后的所述稳定扩散模型对给定文字描述和
/
或参考图像的待上色黑白图像进行上色

[0015]由上述描述可知,本专利技术的有益效果在于:通过先获取预设数量现有素材
——
原始彩色图像及其对应的原始黑白图像和原始文本描述,作为多模态数据组成训练集,对现有实现根据文本返回图片结果的稳定扩散模型进行训练和融合修正,以解决了现有仅通过文本描述上色可能出现描述部分和上色的图像内容不一致的问题,能够通过将文本描述转化为最佳参考图的形式,补充文本描述缺失的问题,最终能够基于融合修正后的稳定扩散模型实现对不仅根据文字描述

还能根据用户提供的参考图像对待上色的黑白图像输出上色结果,且融合修正后的稳定扩散模型能实现使用文本描述和参考图片一同指导上色,有
效确保上色照片更加真实

颜色分布更加合理

[0016]进一步地,所述步骤
S2
具体为:
S21、
记所述训练集中的原始彩色图像为
(I
G1
,I
G2
,...,I
Gn
)、
原始黑白图像为
(I
gray1
,I
gray2
,...,I
grayn
)
以及原始文本描述为
(P
G1
,P
G2
,...,P
Gn
)
,其中
n≥5

S22、
将所述原始文本描述
(P
G1
,P
G2
,...,P
Gn
)
作为现有稳定扩散模型的输入,并给定
m
个不同的随机数种子,每个所述原始文本描述输出相应的
m
张不同输出图片分别记为本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于多模态和参考图像的黑白图像上色方法,其特征在于,包括步骤:
S1、
通过数据库获取预设数量彩色图像及其对应的原始黑白图像和原始文本描述,得到训练集;
S2、
将所述训练集的原始文本描述作为现有稳定扩散模型的输入,输出参考图像,并与所述训练集中的原始彩色图像进行比对得到最佳参考图;
S3、
采用最佳参考图对现有所述稳定扩散模型进行融合修正;
S4、
基于修正后的所述稳定扩散模型对给定文字描述和
/
或参考图像的待上色黑白图像进行上色
。2.
根据权利要求1所述的一种基于多模态和参考图像的黑白图像上色方法,其特征在于,所述步骤
S2
具体为:
S21、
记所述训练集中的原始彩色图像为
(I
G1
,I
G2
,...,I
Gn
)、
原始黑白图像为
(I
gray1
,I
gray2
,...,I
grayn
)
以及原始文本描述为
(P
G1
,P
G2
,...,P
Gn
)
,其中
n≥5

S22、
将所述原始文本描述
(P
G1
,P
G2
,...,P
Gn
)
作为现有稳定扩散模型的输入,并给定
m
个不同的随机数种子,每个所述原始文本描述输出相应的
m
张不同输出图片分别记为
{I
p_11
,I
p_12
,I
p_1m
;I
p_21
,I
p_22
,I
p_2m
;...; I
p_n1
,I
p_n2
,I
p_nm
}
,最终得到
n
×
m
张所述输出图片,其中所述稳定扩散模型为现有能根据文本描述返回对应图片结果的多模态模型,
m≥5

S23、

n
张所述原始彩色图像
(I
G1
,I
G2
,...,I
Gn
)
分别通过
CLIP
模型的图像编码器进行分别编码,再将每个所述原始文本描述对应的
m
张所述输出图片也通过
CLIP
模型的图像编码器进行编码,得到编码结果
F
Gn

F
P_nm
如下公式(1)和(2):(1);(2);其中,所述
CLIP
模型为基于图像和文本并行的多模态模型,
CLIP
encode
表示所述
CLIP
模型的图像编码器,
F
Gn

F
P_nm
分别表示所述原始彩色图像
(I
G1
,I
G2
,...,I
Gn
)
和所述输出图片
{I
p_11
,I
p_12
,I
p_1m
;I
p_21
,I
p_22
, I
p_2m
;...;I
p_n1
,I
p_n2
,I
p_nm
}
的对应编码的结果向量;
S24、
给定一张所述原始彩色图像
I
Gn
,比对编码结果
F
Gn
和其对应的
F
P_n1

F
P_nm
的相似度,得到与给定的所述原始彩色图像
I
Gn
相似度最高的所述输出图片,如下公式(3):(3);其中,
argmax
表示最大值对应的下标,
·
表示向量的内积计算,即计算
F
Gn

(F
p_n1
,F
p_n2
,...,F
p_nm
)
内每个编码进行内积计算的结果,取值最大的下标记作
P
,并记
P
对应的所述输出图片为相似度最高的所述输出图片,记为最佳参考图
I
P
,同时将所述最佳参考图
I
P
对应的所述原始彩色图像记为
I
G

所述原始黑白图像记为
I
gray
以及所述原始文本描述记为
P
G

S25、
重复步骤
S24
直至
n
张所述原始彩色图像均得到了所述最佳参考图
。3.
根据权利要求2所述的一种基于多模态和参考图像的黑白图像上色方法,其特征在于,所述步骤
S3
具体为:
S31、
在所述稳定扩散模型的
U
型网络结构编码器中添加使用所述最佳参考图
I
P
的相似图参考模块,将构成所述
U
型网络结构编码器的多个残差和注意力模块记作
EncodeBlock
i
,其中
i=(1,2,3...)

S32、...

【专利技术属性】
技术研发人员:浦佳祺邓炜童同高钦泉刘洪君田甜
申请(专利权)人:福建帝视科技集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1