【技术实现步骤摘要】
基于双向可切分深度自注意力网络的轻量化视觉问答方法
[0001]本专利技术属于视觉问答领域,具体涉及一种基于双向可切分深度自注意力网络的轻量化视觉问答方法(Visual Question Answering)。
技术介绍
[0002]视觉问答任务是多模态学习任务中的热门研究问题,是一种涉及计算机视觉和自然语言处理的学习任务,其目标为对于一张给定的图像和一句与图像相关的、形式自由的问题,经过视觉问答模型的处理,最终将对应的预测答案输出。与单一模态任务不同,作为多模态任务的视觉问答任务不仅需要正确理解不同模态的信息,还需要理解模态之间相关联的信息,通常更加复杂、难度更高。这项任务在现实生活中有着广泛的应用,例如:可以帮助有视觉障碍的残障人士更方便的获取网络图像信息;同时可以推动人机交互系统更好的发展,增强用户体验;也可以提高机器对图像的理解,加强图像检索的能力。
[0003]深度自注意力网络最初是在自然语言处理领域的机器翻译任务上被提出的,其核心架构为多个自注意力层堆叠而成,每个自注意力层可以构建输入特征之间复杂而密集的交互作用。该深度自注意力网络在机器翻译任务上取得了最佳效果,迅速得到人工智能领域研究者的关注,并将其应用到人工智能的各个子领域,包括视觉问答领域。因为深度自注意力网络能更好的学习到视觉与文本特征之间的交互信息,当下,该网络架构已经成为视觉问答领域的主流网络结构。然而,深度自注意力网络带来性能提升的同时,因为其计算的复杂性,对计算资源、存储空间也提出了新的要求,这将带来一个严峻的问题:在移动设备上部 ...
【技术保护点】
【技术特征摘要】
1.基于双向可切分深度自注意力网络的轻量化视觉问答方法,其特征在于,包括如下步骤:步骤(1):对数据集进行划分;步骤(2):构建图像的视觉特征;对于一张给定图像,使用现有训练好的目标检测网络检测出图像中的候选框个数m以及其位置;针对每个候选框,将候选框区域对应的图像再输入到该目标检测网络中,并提取输入到该网络分类层前的特征作为该候选框的特征;随后将每个候选框提取出的特征拼接,形成给定图像的视觉特征;为了使得图像特征维度匹配深度自注意力网络,最后使用一个可学习的线性变换对图像特征做进一步处理,并映射到D维空间;步骤(3):构建问题的语义特征;对于给定的一个问题,使用训练好的词向量模型对问题中的每个单词提取出语义特征,随后将提取出的单词语义特征做拼接,形成问题语义特征;为了使得问题语义特征维度匹配深度自注意力网络,最后使用一个可学习的线性变换对问题特征做进一步处理,映射到D维空间;步骤(4):构建深度自注意力网络;深度自注意力网络由多个自注意力层堆叠而成,每个自注意力层分为两部分:多头注意力模块和前馈层;利用该深度自注意力网络构建出引导训练的教师网络和最终的双向可切分深度自注意力网络;为了使输入特征能够匹配双向可切分深度自注意力网络中的各个子模型维度,该网络接受维度为D的特征作为输入,并通过一个线性投影变换,将输入特征映射到d维;步骤(5):设计宽度切分策略;深度自注意力网络中的每个自注意力层是由多个参数矩阵组成的,为了适应不同维度的输入特征,需要对每个参数矩阵做切分,以匹配不同维度的输入并输出合适维度的输出特征;针对维度为d的输入特征,为了保持自注意力层的原始结构比例,通过宽度切分策略使得输出特征维度仍然为d;值得注意的是,对于拥有不同维度输入特征的不同子模型,均共享自注意力层中的参数矩阵,当d越小,共享的参数量便越小;当d等于原始输入维度D时,参数矩阵不做切分;步骤(6):设计深度切分策略;深度自注意力网络由多个自注意力层堆叠,记层数为L,当子模型的层数l<L时,根据深度切分策略选择该深度自注意力网络中的l层,并归属为子模型自身所拥有;步骤(7):结合两种切分策略、设计过滤原则;通过步骤(5)(6)设计,每个子模型拥有宽度d和深度l;在相同的参数量、计算下,深而窄的子模型会比浅而宽的子模型更高效、结构更合理,提出了一种“深而窄”的过滤原则,在模型训练前就先挑选出一些层数多、宽度低的子模型,而直接丢弃掉那些层数少、宽度高的子模型;通过此项过滤原则,得到筛选后的子模型结构候选集步骤(8):设计自蒸馏训练算法并训练模型;针对步骤(7)得到的子模型结构候选集提出一种自蒸馏训练策略,使得各个子模型能够得到充分训练;首先利用步骤(4)的深度自注意力网络训练一个教师网络,并构建出一
个双向可切分深度自注意力网络,在训练双向可切分深度自注意力网络中的子模型时,先将图像和问题输入到教师网络中得到其预测向量,称为软标签,并通过子模型采样策略,在训练时采样出候选集中的子模型,将这个软标签作为采样出的子模型的监督标签进行训练;步骤(9):模型部署及应用。2.根据权利要求1所述的基于双向可切分深度自注意力网络的轻量化视觉问答方法,其特征在于,步骤(1)所述的数据集的划分,具体如下:所述的数据集采用VQA
‑
v2数据集,针对VQA
‑
v2数据集,进一步划分为3个子集:训练集、验证集和测试集;训练集用于训练模型,验证集用于本地验证模型收敛情况,测试集用于最终的模型性能评估。3.根据权利要求2所述的基于双向可切分深度自注意力网络的轻量化视觉问答方法,其特征在于,步骤(2)所述的构建图像的视觉特征,具体如下:对于一张给定图像,使用现有训练好的Faster R
‑
CNN目标检测网络推断出图像中的候选框个数m以及其位置,并将每个候选框对应的图像区域输入到该Faster R
‑
CNN目标检测网络中,以提取出其视觉特征;对于第i个候选框,其对应的视觉特征为而整张图像对应的视觉特征由每个候选框对应的视觉特征拼接而成,具体表示公式如下:X
image
=[x1,x2,...,x
i
,...,x
m
]
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(公式1)随后,使用一个可学习的线性变换对图像特征X
image
做进一步处理,映射到D维空间得到最终的图像视觉特征具体公式如下:X
input
=Linear(X
image
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(公式2)。4.根据权利要求3所述的基于双向可切分深度自注意力网络的轻量化视觉问答方法,其特征在于,步骤(3)所述的构建问题的语义特征,具体如下:对于给定的一个问题,其包含n个单词,将每个单词输入到预先训练好的GloVe词向量模型中,以提取出其语义特征;对于第j个单词,其对应的语义特征为而整个问题对应的语义特征由每个单词对应的语义特征拼接而成,具体表示公式如下:Y
question
=[y1,y2,...,y
j
,...,y
n
]
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(公式3)随后,使用一个可学习的线性变换将问题语义特征Y
question
做进一步处理,映射到D维空间得到最终的问题语义特征具体公式如下:Y
input
=Linear(Y
question
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(公式4)。5.根据权利要求4所述的基于双向可切分深度自注意力网络的轻量化视觉问答方法,其特征在于,步骤(4)所述的构建深度自注意力网络,具体如下:深度自注意力网络由多个自注意力层堆叠而成,每个自注意力层分为两部分:多头注意力模块和前馈层;利用该深度自注意力网络构建出引导训练的教师网络和最终的双向可切分深度自注意力网络,所述的教师网络和双向可切分深度自注意力网络均采用相同结构
的深度自注意力网络;为了使输入特征能够匹配双向可切分深度自注意力网络中的各个子模型维度,深度自注意力网络接受...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。