当前位置: 首页 > 专利查询>上海大学专利>正文

基于多模态语义匹配的图像风格迁移系统及方法技术方案

技术编号:36965602 阅读:22 留言:0更新日期:2023-03-22 19:25
本发明专利技术揭示了一种基于多模态语义匹配的图像风格迁移系统及方法,包括内容图像输入模块、风格信息输入模块、风格图像向量库、文本图像检索模块、图像风格迁移模块和结果输出模块。本发明专利技术提供的多模态语义匹配的图像风格迁移系统及方法,实现了支持文本驱动和图像驱动两种模态数据提供风格信息的图像风格迁移,在图像风格迁移模块中利用注意力机制和插值操作逐渐调整风格图像特征分布与内容图像特征分布对齐,使得最终的风格化结果的内容语义区域和风格语义区域是相互匹配的,在保证风格化结果内容结构完整性的同时获得更好的风格化效果。效果。效果。

【技术实现步骤摘要】
基于多模态语义匹配的图像风格迁移系统及方法


[0001]本专利技术涉及一种基于多模态语义匹配的图像风格迁移系统及方法,属于计算机和文化领域。

技术介绍

[0002]图像风格迁移指的是将一张图像的风格转移到一张自然图像上,使得自然图像在保留原始内容的同时又具有独特的风格。随着移动设备的普及,相机和短视频中的美颜功能被人们广泛使用,大众对于图像风格迁移的效果要求越来越高。此外,图像风格迁移技术在影视制作、动漫渲染等方面均发挥着巨大的作用,所以,进一步研究图像风格迁移技术,有利于发掘其更多的潜在价值与更广泛的应用空间。
[0003]图像风格迁移技术作为深度学习技术在文化领域的应用,自从2015年Gatys等人首次将VGG网络应用于图像风格迁移领域,便引领了将深度学习与图像风格迁移相结合算法的研究风潮,并涌现了大量优秀的算法。
[0004]图像风格迁移方法需要以风格图像和内容图像作为输入来提供风格和内容信息。然而,在许多实际情况下,用户可能没有合适的可供参考的风格图像,而使用文本来描述风格偏好相对于使用风格图像更容易获得且更容易调整。因此,构建一种支持文本和图像等多模态数据作为输入的图像风格迁移模型是非常必要的。目前,大多数图像风格迁移方法假设图像风格可以由其深度特征的全局统计来表示,例如Gram矩阵或协方差矩阵。这种全局统计从整个图像捕获风格,并应用于内容图像,使得内容图像不同语义区域由风格图像中不匹配的语义区域进行渲染,导致最终风格化结果语义风格混乱、内容结构损坏等问题。因此,借助多模态的基于语义匹配的图像风格迁移方法,是很有必要的。。

技术实现思路

[0005]本专利技术的目的是:实现支持文本和图像等多种模态数据作为输入,并保证输出图像内容语义区域由风格图像相匹配的风格语义区域来渲染,以提升图像风格迁移过程的灵活性,实现自然、美观、高质量的图像风格化结果。
[0006]为了达到上述目的,本专利技术的一个技术方案是提供了一种基于多模态语义匹配的图像风格迁移系统,其特征在于,包括内容图像输入模块、风格信息输入模块、风格图像向量库、文本图像检索模块、图像风格迁移模块和结果输出模块,其中:
[0007]内容图像输入模块,用于向图像风格迁移模块输入内容图像,为图像风格迁移模块的最终输出结果提供内容信息;
[0008]风格信息输入模块,用于向图像风格迁移模块输入风格信息,该风格信息为用于描述风格的文本数据或用于描述风格的风格图像,实现支持以文本或者图像两种模态的数据作为输入为图像风格迁移模块的最终输出结果提供风格信息;
[0009]风格图像向量库:基于风格图像数据集建立风格图像向量库,为风格图像数据集中的每张风格图像创建文本标签后,采用图文对比多模态预训练模型对风格图像数据集中
每张带有文本标签的风格图像进行编码后得到风格图像向量,基于所有风格图像向量建立向量库;
[0010]文本图像检索模块:采用图文对比多模态预训练模型将通过风格信息输入模块输入的文本数据编码为文本向量,然后检索风格图像向量库中与当前文本向量语义匹配度最高的风格图像向量,并向图像风格迁移模块输出对应的风格图像;
[0011]结果输出模块:将经过图像风格迁移模块处理后得到的风格化图像特征重新还原为图像后输出。
[0012]优选地,所述风格图像以及所述内容图像的图像大小相同。
[0013]优选地,所述文本标签包括当前风格图像的创作者名称以及对当前风格图像语义内容的文本描述。
[0014]优选地,所述结果输出模块将经过所述图像风格迁移模块处理的风格化结果保存至本地指定文件夹下。
[0015]本专利技术的另一个技术方案是提供了一种基于多模态语义匹配的图像风格迁移方法,其特征在于,包括以下步骤:
[0016]S100、原始图像处理:
[0017]将用户通过内容图像输入的内容图像转换为设定大小的图像,若用户通过风格信息输入模块输入的风格信息为风格图像,则将风格图像转换为与内容图像相同大小的图像;
[0018]获取风格图像数据集,将风格图像数据集中的风格图像转换为设定大小的图像;
[0019]S200、风格图像标注:
[0020]为风格图像数据集中的每一个风格图像创建一个文本标签,文本标签的内容至少包括对当前风格图像语义内容的文字描述,最终形成一张表格,表格中每行记录了风格图像数据集中一张风格图像的路径和其对应的文本标签;
[0021]S300、构建风格图像向量库:
[0022]基于步骤S200获得的表格,按照索引顺序读取表格中相应路径下的风格图像,采用图文对比多模态预训练模型对每一张风格图像进行编码得到风格图像向量,从而构建获得风格图像向量库;
[0023]S400、图像风格迁移,根据输入的数据模态选择不同的方式得到最终的风格化结果:
[0024]如果用户通过风格信息输入模块输入的是用于描述风格的文本数据,则通过文本图像检索模块将所输入的文本数据编码为文本向量,然后从风格图像向量库中检索出与当前文本向量匹配度最高的风格图像向量,并将其还原成风格图像后和通过内容图像输入的内容图像一起输入图像风格迁移模块得到最终的风格化结果;
[0025]如果用户通过风格信息输入模块输入的是用于提供风格信息的风格图像,则直接将风格图像与通过内容图像输入的内容图像一起输入到图像风格迁移模块后得到最终的风格化结果;
[0026]S500、分析结果展示:结果输出模块将经过图像风格迁移模块处理后的风格化图像特征重新还原为图像后输出。
[0027]优选地,步骤S200中,所述文本标签还包括当前风格图像的创作者名称。
[0028]优选地,所述步骤S300包括以下步骤:
[0029]S301、根据步骤S200中创建的表格,按照索引顺序读取路径下的风格图像,通过图文对比多模态预训练模型中的图像编码器提取图像特征得到风格图像向量;
[0030]S302、采用Milvus云原生向量数据库保存风格图像向量。
[0031]优选地,所述步骤S400中,文本图像检索模块的具体操作包括如下步骤:
[0032]S401、将输入的文本数据通过图文对比多模态预训练模型中的文本编码器进行文本特征提取得到文本向量;
[0033]S402、将文本向量与风格图像向量库中的风格图像向量比较,计算两者之间的欧式距离,检索出风格图像向量库中与文本向量匹配度最高的风格图像向量;
[0034]S403、根据风格图像向量的索引,在步骤S200得到的表格中查询对应索引下风格图像的路径,返回风格图像。
[0035]优选地,所述步骤S400中,图像风格迁移模块的具体操作包括如下步骤:
[0036]S404、将内容图像和风格图像通过预训练的VGG网络提取图像特征得到内容图像特征向量和风格图像特征向量;
[0037]S405、对内容图像特征和风格图像特征进行归一化并嵌入以计算得到注意力图;
[0038]S4本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多模态语义匹配的图像风格迁移系统,其特征在于,包括内容图像输入模块、风格信息输入模块、风格图像向量库、文本图像检索模块、图像风格迁移模块和结果输出模块,其中:内容图像输入模块,用于向图像风格迁移模块输入内容图像,为图像风格迁移模块的最终输出结果提供内容信息;风格信息输入模块,用于向图像风格迁移模块输入风格信息,该风格信息为用于描述风格的文本数据或用于描述风格的风格图像,实现支持以文本或者图像两种模态的数据作为输入为图像风格迁移模块的最终输出结果提供风格信息;风格图像向量库:基于风格图像数据集建立风格图像向量库,为风格图像数据集中的每张风格图像创建文本标签后,采用图文对比多模态预训练模型对风格图像数据集中每张带有文本标签的风格图像进行编码后得到风格图像向量,基于所有风格图像向量建立向量库;文本图像检索模块:采用图文对比多模态预训练模型将通过风格信息输入模块输入的文本数据编码为文本向量,然后检索风格图像向量库中与当前文本向量语义匹配度最高的风格图像向量,并向图像风格迁移模块输出对应的风格图像;结果输出模块:将经过图像风格迁移模块处理后得到的风格化图像特征重新还原为图像后输出。2.如权利要求1所述的一种基于多模态语义匹配的图像风格迁移系统,其特征在于,所述风格图像以及所述内容图像的图像大小相同。3.如权利要求1所述的一种基于多模态语义匹配的图像风格迁移系统,其特征在于,所述文本标签包括当前风格图像的创作者名称以及对当前风格图像语义内容的文本描述。4.如权利要求1所述的一种基于多模态语义匹配的图像风格迁移系统,其特征在于,所述结果输出模块将经过所述图像风格迁移模块处理的风格化结果保存至本地指定文件夹下。5.一种基于多模态语义匹配的图像风格迁移方法,其特征在于,包括以下步骤:S100、原始图像处理:将用户通过内容图像输入的内容图像转换为设定大小的图像,若用户通过风格信息输入模块输入的风格信息为风格图像,则将风格图像转换为与内容图像相同大小的图像;获取风格图像数据集,将风格图像数据集中的风格图像转换为设定大小的图像;S200、风格图像标注:为风格图像数据集中的每一个风格图像创建一个文本标签,文本标签的内容至少包括对当前风格图像语义内容的文字描述,最终形成一张表格,表格中每行记录了风格图像数据集中一张风格图像的路径和其对应的文本标签;S300、构建风格图像向量库:基于步骤S200获得的表格,按照索引顺序读取表格中相应路径下的风格图像,采用图文对比多模态预训练模型对每一张风格图像进行编码得到风格图像向量,从而构建获得风格图像向量库;S400、图像风格迁移,根据输入的数据模态选择不同的方式得到最终的风格化结果:如果用户通过风格信息输入模块输入的是用于描述风格的文本数据,则通过文本图像
...

【专利技术属性】
技术研发人员:武星胡明涛
申请(专利权)人:上海大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1