一种基于多属性驱动制造技术

技术编号：39396762 阅读：6 留言：0更新日期：2023-11-19 15:51

本发明专利技术公开了一种基于多属性驱动

全部详细技术资料下载

【技术实现步骤摘要】
一种基于多属性驱动Transformer的图像自动裁剪方法和装置

[0001]本专利技术涉及一种基于多属性驱动
Transformer
的图像自动裁剪方法和装置，属于计算机视觉与图像处理技术
。

技术介绍

[0002]随着社交媒体的普及，人们对图像美学质量的要求越来越高
。
图像裁剪是计算机视觉领域中具有实用性和挑战性的任务，其目的是在图像中自动找到视觉上吸引人的裁剪，以提高图像质量，满足美学要求
。
图像裁剪技术可以应用在很多下游任务中，如图像后处理
、
视图推荐
、
图像缩略图和相机视图调整建议等
。
[0003]早期的图像裁剪技术主要通过显著检测方法来检测出图像中的显著物体并在显著物体周围进行裁剪
。
随着深度学习技术的发展和图像裁剪数据集的构建，现有方法主要采用数据驱动的方式，即直接从标注好的数据中学习如何裁剪出视觉上吸引人的视图
。
这些方法通常是在第一阶段生成候选裁剪框，然后再通过自监督
、
知识蒸馏
、
网络模型
RoIAlign
和
RoDAlign
等方法对裁剪框进行评分或排名，最终根据评分或排名来输出最终的裁剪
。
在
2019
年，
Zeng
等人提出了一个基于网格锚的图像裁剪数据集，该数据集被广泛应用于后来的图像裁剪任务中，同时提出了一个基于网格锚的

【技术保护点】

【技术特征摘要】
1.
一种基于多属性驱动
Transformer
的图像自动裁剪方法，其特征在于：包括如下步骤：
Step1
：使用
Next
‑
ViT
作为主干网络构建全局特征提取模块
、
主题分支
、
构图分支和裁剪分支；其中，
Next
‑
ViT
是一种基于
Transformer
的网络模型，
θ
表示图像特征提取器
f
θ
的参数；
Step2
：在全局特征提取模块中，构建图像特征提取器
f
θ
；使用图像特征提取器
f
θ
提取输入图像
x
的全局特征图
F
g
＝
f
θ
(x)
；
Step3
：在主题分支中，构建主题属性激活图生成模块；所述主题属性激活图生成模块，在全局特征图
F
g
的基础上，首先通过主题预测单元获取主题类别激活图
TCAM
和主题类别预测概率
t
，然后通过主题特征合并单元获取主题属性激活图
F
t
，使用主题属性训练单元对主题属性激活图生成模块进行监督训练；
Step4
：在构图分支中，构建构图属性激活图生成模块和多属性特征融合单元；所述构图属性激活图生成模块，在全局特征图
F
g
的基础上，首先通过构图预测单元获取构图规则激活图
CCAM
和构图规则预测概率
p
，然后通过构图特征合并单元获取构图属性激活图
F
c
，使用构图属性训练单元对构图属性激活图生成模块进行监督训练；所述多属性特征融合单元对主题属性激活图
F
t
和构图属性激活图
F
c
进行加权求和进而获取多属性激活图
F
m
；
Step5
：在裁剪分支中，构建锚点位置特征获取单元
、
偏移特征获取模块和裁剪框预测模块；在输入图像
x
上均匀设置锚点，通过锚点位置特征获取单元获取锚点位置特征图
F
pos
；所述偏移特征获取模块，在全局特征图
F
g
的基础上，首先通过全局关系推理单元获取全局关系特征图
F
r
，然后通过注意力计算单元获取多头自注意力机制的查询向量
Q、
键向量
K
和值向量
V
，接着通过多头自注意力机制获取注意力特征图
F
，最后通过特征转换单元将注意力特征图
F
转换为偏移量特征图
F
o
，偏移量特征图
F
o
表征了锚点到预测裁剪框
box
边界的偏移量；所述裁剪框预测模块，首先通过特征处理单元合并锚点位置特征图
F
pos
和偏移量特征图
F
o
得到裁剪框特征图
F
cr
，同时对多属性激活图
F
m
进行归一化得到锚点权重值，然后利用锚点权重值对裁剪框特征图
F
cr
进行加权，得到输入图像
x
的预测裁剪框
box
；使用裁剪框训练单元对裁剪框预测模块进行监督训练
。2.
根据权利要求1所述的基于多属性驱动
Transformer
的图像自动裁剪方法，其特征在于：所述
Step3
中，主题属性激活图生成模块包括主题预测单元
、
主题特征合并单元和主题属性训练单元，通过主题属性激活图生成模块获取主题属性激活图
F
t
，包括如下步骤：
Step31
：在主题预测单元中，全局特征图
F
g
经过全局平均池化层
、
线性层
I
和
softmax
层后得到主题类别预测概率
t
＝
{t
n
}
，
t
＝
softmax(Linear1(GAP(F
g
)))
；其中，
t
n
表示属于第
n
个主题类别的预测概率，
n
＝
1,2,
…
,N
，
N
表示主题类别的总数；
GAP
表示全局平均池化操作，输出为全局特征图
F
g
的通道数；
Linear1
表示使用线性层
I
统计主题类别总数的线性层操作，输出的值为
N
；
softmax
表示归一化指数函数，输出为属于各个主题类别的预测概率；
Step32
：在主题预测单元中，根据线性层的权重和全局特征图
F
g
获取主题类别激活图
TCAM
＝
{TCAM
n
}
，其中，
TCAM
n
表示属于第
n
个主题类别的类别激活子图，
c
＝
1,2,
…
,C
，
C
表示全局特征图
F
g
的通道总数，
F
gc
表示全局特征图
F
g
中第
c
个通道的值，
w
c,n
表示全局特征图
F
g
中第
c
个通道
、
第
n
个主题类别在线性层中的权重；
Step33
：在主题特征合并单元中，根据主题类别预测概率
t
和主题类别激活图
TCAM
获取主题属性激活图其中，表示归一化函数，用于将属于第
n
个主题类别的类别激活子图
TCAM
n
的值归一化成
[0,1]
之间的数；
Step34
：在主题属性训练单元中，使用主题数据集对主题属性激活图生成模块进行监督训练，主题数据集中每一幅训练图像均标记了图像所属于的主题类别，采用交叉熵损失优化主题属性激活图生成模块的参数；其中，表示属于第
n
个主题类别的真实概率，通过随机梯度下降法对主题属性激活图生成模块的参数进行更新；将训练完成后的主题属性激活图生成模块生成的主题属性激活图作为最终的主题属性激活图
F
t
。3.
根据权利要求1所述的基于多属性驱动
Transformer
的图像自动裁剪方法，其特征在于：所述
Step4
中，构图属性激活图生成模块包括构图预测单元
、
构图特征合并单元和构图属性训练单元，通过构图属性激活图生成模块获取构图属性激活图
F
c
，通过多属性特征融合单元获取多属性激活图
F
m
，包括如下步骤：
Step41
：在构图预测单元中，全局特征图
F
g
经过全局平均池化层
、
线性层
II
和
softmax
层后得到构图规则预测概率
p
＝
{p
m
}
，
p
＝
softmax(Linear2(GAP(F
g
)))
；其中，
p
m
表示遵循第
m
个构图规则的预测概率，
m
＝
1,2,
…
,M
，
M
表示构图规则的总数，
GAP
表示全局平均池化操作，输出为全局特征图
F
g
的通道数；
Linear2
表示使用线性层
II
统计构图规则总数的线性层操作，输出的值为
M
；
softmax
表示归一化指数函数，输出为遵循各个构图规则的预测概率；
Step42
：在构图预测单元中，根据线性层的权重和全局特征图
F
g
获取构图规则激活图
CCAM
＝
{CCAM
m
}
，其中，
CCAM
m
表示遵循第
m
个构图规则的构图激活子图，
c
＝
1,2,
…
,C
，
C
表示全局特征图
F
g
的通道总数，
F
gc
表示全局特征图
F
g
中第
c
个通道的值，
w
c,m
表示全局特征图
F
g
中第
c
个通道
、
第
m
个构图规则在线性层中的权重；
Step43
：在构图特征合并单元中，根据构图规则预测概率
p
和构图规则激活图
CCAM
获取构图属性激活图其中，表示归一化函数，用于将遵循第
m
个构图规则的构图激活子图
CCAM
m
的值归一化成
[0,1]
之间的数；
Step44
：在构图属性训练单元中，使用构图数据集对构图属性激活图生成模块进行监督训练，构图数据集中每一幅训练图像均标记了图像所遵循的构图规则，采用交叉熵损失优化构图属性激活图生成模块的参数；其中，表示遵循第
m
个构...

【专利技术属性】
技术研发人员：祝汉城，闫礼，周勇，姚睿，邵志文，杜文亮，赵佳琦，
申请(专利权)人：中国矿业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人