一种基于多种相似风格的低资源图片管理系统及方法技术方案

技术编号:39813425 阅读:5 留言:0更新日期:2023-12-22 19:31
本发明专利技术公开了一种基于多种相似风格的低资源图片管理系统及方法,涉及图片处理技术领域;所述低资源图片管理方法,包括以下步骤:获取输入的包含相似风格的图片的图片集,提取图片集中每一种风格的图片的主要特征,并将主要特征转化为文本数据;输入任一种风格的图片的文本数据和其他风格的图片的文本数据,经过训练输出得到与所述任一张风格的图片相同

【技术实现步骤摘要】
一种基于多种相似风格的低资源图片管理系统及方法


[0001]本专利技术涉及图片处理
,具体为一种基于多种相似风格的低资源图片管理系统及方法


技术介绍

[0002]低资源图片增强的意义在于能够解决传统神经网络模型在增强特征缺失的图像时效果较差的问题,提高增强效果和模型的适应能力;在实际应用中,许多场景下的图像数据集都是有限的,而低资源图片增强方法可以通过对已有的图片进行增强,以生成更多的数据,从而扩充数据集的规模和多样性,这可以提高模型的准确性和鲁棒性,从而使其更具实用性

[0003]传统的神经网络模型在处理特征缺失图像时的效果较差,尤其是在低资源环境下

现有的图像增强方法只能针对某一类图片进行增强,无法兼顾多种相似风格的图片的增强,且需要大量的真实对象图片作为训练数据,因此可行性较低


技术实现思路

[0004]本专利技术的目的在于提供一种基于多种相似风格的低资源图片管理系统及方法,以解决上述
技术介绍
中提出的问题

[0005]为了解决上述技术问题,本专利技术提供如下技术方案:一种基于多种相似风格的低资源图片管理方法,所述管理方法包括以下步骤:
[0006]步骤
S100
:获取输入的图片集,提取图片集中每一张图片的主要特征,并将主要特征转化为文本数据;
[0007]步骤
S200
:输入任一张风格的图片的文本数据和其他风格的图片的文本数据,经过训练输出得到与所述任一张风格的图片相同

与其他风格的图片不同的文本数据,将输出得到的文本数据做为正向文本,将所述任一张风格的图片中剩余的文本数据做为负向文本;
[0008]步骤
S300
:通过正向文本和负向文本训练模型,对提取出的文本数据进行去噪处理,生成符合正向文本的图片;
[0009]步骤
S400
:计算生成图片的图片向量表示与图片集平均表示的相似度,筛选出与特定风格相似的图片,并将所述图片加入所述风格的图片集

[0010]进一步的,步骤
S100
包括以下步骤:
[0011]步骤
S101
:将图片输入第一个模型中的图片编码模块,对图片进行切块,线性映射到向量空间,提取图片特征;
[0012]步骤
S102
:根据提取到的图片特征对所述图片特征进行文本描述,将所述图片特征转化为文本数据

[0013]进一步的,步骤
S200
中的训练过程包括以下步骤:
[0014]步骤
S201
:将提取到的文本数据映射到向量空间得到文本向量;
[0015]步骤
S202
:对文本向量进行参数调整,固定原始的训练参数,并在文本向量前拼接需要进行训练的参数;
[0016]步骤
S203
:输入任一张风格的图片的文本数据,通过模型中的
GPT
架构进行训练,输出得到正向文本;当输出的负向文本与所述正向文本相似时,则将所述负向文本输入模型中继续训练;
[0017]描述增强和筛选部分则可以根据目标图像的特点,选择最适合的增强方式,同时排除一些不合适的增强方式,从而进一步提高增强效果

[0018]进一步的,步骤
S300
包括以下步骤:
[0019]步骤
S301
:将当前风格的文本描述作为正向文本,与所述文本描述存在相似风格的文本描述作为负向文本;在文本编码器中根据正向文本对图片的文本描述进行采样得到对应的正面文本,根据负向文本对图片的文本描述进行采样得到对应的负面文本;
[0020]步骤
S302
:利用采样器将图片的文本描述中存在的初始纯噪声隐变量输入到
Unet
网络中;结合语义控制向量,根据接收到的负向文本

在迭代中的文本描述和时间步长进行修改模型的架构调整
Unet
去噪强度去除纯噪声隐变量中的噪声,重复若干次,并持续向隐变量中注入语义信息,得到一个隐空间向量;
[0021]步骤
S303
:在隐空间向量中排除所有负向文本,通过采样器在不符合负向文本的隐空间向量中进行采样,根据正向文本对所述图片的文本描述进行加强,在
Unet
网络中生成图片;
[0022]步骤
S304
:通过图片解码器将生成器中得到的低维空间向量进行升维放大,得到一张完整的图片

[0023]进一步的,步骤
S400
包括以下步骤:
[0024]步骤
S401
:设定生成图片的向量表示为
V
,与所述图片存在相似风格的图片集的平均向量表示为根据公式:
[0025][0026]其中,为向量
V
和向量的内积,
|V|、
为向量
V
和向量的模场,
S
为两个向量之间的相似度;计算得到生成图片的向量表示
V
和所述图片存在相似风格的图片集的平均向量表示之间的相似度;
[0027]步骤
S402
:设定图片集中一共有
j
种风格,其中第
i
种风格的图片与生成风格的图片的相似度为
S
i
,根据公式:
[0028][0029]其中,
Score
i
为第
i
种风格的图片的相似指标;选取
K
个相似指标最高的风格的图片加入图片集中

[0030]进一步的,为了更好地实现上述方法提出了一种基于多种相似风格的低资源图片管理系统,所述系统包括了文本转换模块

特征区别模块

图片生成模块和相似筛选模块;
[0031]所述文本转换模块,用于获取输入的图片集,提取图片集中每张图片的主要特征,
并将主要特征转化为文本数据;
[0032]所述特征区别模块,用于通过前缀模块学习不同风格之间的区别特征,输入一种风格文本描述作为正向文本,输出与所述风格文本描述不同的作为负向文本;将文本数据与正向文本

负向文本进行对比,筛选出相似度高的特征;
[0033]所述图片生成模块,将某种风格的文本描述作为正向文本,与所述文本描述存在相似风格的文本描述作为负向文本;通过正向文本和负向文本训练模型,对提取出的文本数据进行去噪处理,生成符合正向文本的图片;
[0034]所述相似筛选模块,用于计算生成图片的图片向量表示与图片集平均表示的相似度,筛选出与特定风格相似的图片,并将所述图片加入所述风格的图片集

[0035]进一步的,所述图片生成模块包本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于多种相似风格的低资源图片管理方法,其特征在于:所述管理方法包括以下步骤:步骤
S100
:获取输入的包含相似风格的图片的图片集,提取图片集中每一种风格的图片的主要特征,并将主要特征转化为文本数据;步骤
S200
:输入任一种风格的图片的文本数据和其他风格的图片的文本数据,经过训练输出得到与所述任一张风格的图片相同

与其他风格的图片不同的文本数据,将输出得到的文本数据做为正向文本,将所述任一张风格的图片中剩余的文本数据做为负向文本;步骤
S300
:通过正向文本和负向文本训练模型,对提取出的文本数据进行去噪处理,生成符合正向文本的图片;步骤
S400
:计算生成图片的图片向量表示与图片集平均表示的相似度,筛选出与特定风格相似的图片,并将所述图片加入所述风格的图片集
。2.
根据权利要求1所述的一种基于多种相似风格的低资源图片管理方法,其特征在于:所述步骤
S100
包括以下步骤:步骤
S101
:将图片输入设定好的图片编码模块中,再对图片进行切块,线性映射到向量空间,提取图片特征;步骤
S102
:根据提取到的图片特征对所述图片特征进行文本描述,将所述图片特征转化为文本数据
。3.
根据权利要求2所述的一种基于多种相似风格的低资源图片管理方法,其特征在于:所述步骤
S200
中的训练过程包括以下步骤:步骤
S201
:将提取到的文本数据映射到向量空间得到文本向量;步骤
S202
:对文本向量进行参数调整,固定原始的训练参数,并在文本向量前拼接需要进行训练的参数;步骤
S203
:输入任一张风格的图片的文本数据,通过模型中的
GPT
架构进行训练,输出得到正向文本;当输出的负向文本与所述正向文本相似时,则将所述负向文本输入模型中继续训练
。4.
根据权利要求3所述的一种基于多种相似风格的低资源图片管理方法,其特征在于:所述步骤
S300
包括以下步骤:步骤
S301
:在文本编码器中根据正向文本对图片的文本描述进行采样得到对应的正面文本,根据负向文本对图片的文本描述进行采样得到对应的负面文本;步骤
S302
:利用采样器将图片的文本描述中存在的初始纯噪声隐变量输入到
Unet
网络中;结合语义控制向量,根据接收到的负向文本

在迭代中的文本描述和时间步长进行修改模型的架构调整
Unet
去噪强度去除纯噪声隐变量中的噪声,重复若干次,并持续向隐变量中注入语义信息,得到一个隐空间向量;步骤
S303
:在隐空间向量中排除所有负向文本,通过采样器在不符合负向文本的隐空间向量中进行采样,根据正向文本对所述图片的文本描述进行加强,在
Unet
网络中生成图片;步骤
S304
:通过图片解码器将生成器中得到的低维空间向量进行升维放大,得到一张完整的图片
。5.
根据权利要求1所...

【专利技术属性】
技术研发人员:吕鹏岩
申请(专利权)人:上海喔哇宇宙数字科技有限公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1