基于双向可切分深度自注意力网络的轻量化视觉问答方法技术

技术编号:33893922 阅读:18 留言:0更新日期:2022-06-22 17:30
本发明专利技术公开了一种基于双向可切分深度自注意力网络的轻量化视觉问答方法,提出了一种双向可切分深度自注意力网络,基于设计的宽度、深度均可切分的双向策略,并采用“深而窄”的过滤原则进一步挑选合理的子模型,配合提出的自蒸馏算法,使得网络中的各个子模型都具备视觉问答任务的应用能力。此双向可切分的深度自注意力模型可以根据当下的计算资源动态选择合适的子模型预测答案,取得精度和时延之间的平衡,在预测答案的准确率得到保证的同时使得用户拥有良好的体验感。得用户拥有良好的体验感。得用户拥有良好的体验感。

【技术实现步骤摘要】
基于双向可切分深度自注意力网络的轻量化视觉问答方法


[0001]本专利技术属于视觉问答领域,具体涉及一种基于双向可切分深度自注意力网络的轻量化视觉问答方法(Visual Question Answering)。

技术介绍

[0002]视觉问答任务是多模态学习任务中的热门研究问题,是一种涉及计算机视觉和自然语言处理的学习任务,其目标为对于一张给定的图像和一句与图像相关的、形式自由的问题,经过视觉问答模型的处理,最终将对应的预测答案输出。与单一模态任务不同,作为多模态任务的视觉问答任务不仅需要正确理解不同模态的信息,还需要理解模态之间相关联的信息,通常更加复杂、难度更高。这项任务在现实生活中有着广泛的应用,例如:可以帮助有视觉障碍的残障人士更方便的获取网络图像信息;同时可以推动人机交互系统更好的发展,增强用户体验;也可以提高机器对图像的理解,加强图像检索的能力。
[0003]深度自注意力网络最初是在自然语言处理领域的机器翻译任务上被提出的,其核心架构为多个自注意力层堆叠而成,每个自注意力层可以构建输入特征之间复杂而密集的交互作用。该深度自注意力网络在机器翻译任务上取得了最佳效果,迅速得到人工智能领域研究者的关注,并将其应用到人工智能的各个子领域,包括视觉问答领域。因为深度自注意力网络能更好的学习到视觉与文本特征之间的交互信息,当下,该网络架构已经成为视觉问答领域的主流网络结构。然而,深度自注意力网络带来性能提升的同时,因为其计算的复杂性,对计算资源、存储空间也提出了新的要求,这将带来一个严峻的问题:在移动设备上部署这些模型需要依赖GPU云服务器,而难以直接利用移动端有限的计算资源,这会造成资源的浪费且不环保。当下,视觉问答领域暂时还没有轻量化模型出现,这为模型的部署带来了挑战,也阻碍了用户享受人工智能应用带来的便利性。
[0004]为了应对深度学习模型难以部署的新挑战,一些模型压缩方法应运而生。在计算机视觉和自然语言处理等单模态任务领域,一些基于权重分享、知识蒸馏、剪枝、量化等方法的压缩模型逐渐出现,使模型压缩到一定比例以达到计算量和准确率之间的平衡,但这些方法通常都是压缩到一个固定比例,只能得到一个固定大小的轻量化模型。当今,移动设备种类繁多,不同移动设备之间的计算性能差异大,且即使相同的移动设备,在其不同负载条件、不同电量下能提供的计算资源也不同,倘若为一台移动设备或者一种负载条件设计一个轻量化模型,将会使得模型训练开销与模型数量成正比,且一台移动设备需要保存多个模型以应对多种场景,其存储开销也非常大。
[0005]近期,一种可瘦身、可切分的神经网络提供了一条新的思路:仅用一个模型来应对多种场景,当计算资源充足时,取模型的大部分做前向传播并预测,以获得更高的准确率;而当计算资源有限时,则取模型的小部分参数做预测,为了推断速度而牺牲一点精度。倘若能利用这种思想,并针对视觉问答领域中的主流模型结构深度自注意力网络设计一种高效、合理的切分与训练策略,将对视觉问答模型的落地做出新的贡献。
[0006]综上所述,如何设计一个高效的、可切分的深度自注意力网络,并将其应用到视觉
问答领域是一个值得深入研究的课题。本专利拟从该任务中几个关键点切入展开探讨,解决目前方法存在的难点和重点,形成一套完整的、高效的轻量化视觉问答方法。

技术实现思路

[0007]针对现有技术中存在的不足,本专利技术提供了一种基于双向可切分深度自注意力网络的轻量化视觉问答方法。本专利技术主要包含两点:
[0008]1、通过分析深度自注意力网络的内部结构,设计出一种高效、合理的宽度及深度切分策略,并结合这两种策略形成在宽度、深度上均可切分的双向策略。针对双向策略切分出来的子模型,本专利技术提出了一种“深而窄”的过滤原则,进一步挑选了一些较优的高效子结构。
[0009]2、将上述双向切分策略和过滤原则与现有基于深度自注意力的视觉问答模型相结合,并提出了一种高效的自蒸馏训练策略,使得各个子模型都能得到充分训练,最终得到双向可切分的深度自注意力视觉问答模型。
[0010]本专利技术提出了一种基于双向可切分深度自注意力网络的轻量化视觉问答方法(Visual Question Answering)。核心方法为通过分析深度自注意力网络的内部结构,提出了一种高效、合理的宽度及深度切分策略,并将这两种单维度的切分策略结合,形成在宽度、深度均可切分的双向策略。同时,针对此双向策略切分出来的子结构,本专利技术提出了一种“深而窄”的过滤原则,进一步挑选了一些较优的高效子结构,此过滤原则不仅可以提高各个子结构的性能,且在模型部署时,不需要额外的筛选并可直接投入使用,避免了后处理的过程,简洁易用。此外,一种高效的自蒸馏训练策略也被提出,使得各个子模型都能得到充分训练。本方法可以与任何现有的基于深度自注意力网络的视觉问答模型相结合,通过训练形成双向可切分的深度自注意力网络,网络中的各个子模型都具备视觉问答任务的应用能力,当模型部署在一些资源受限、性能波动较大的边缘设备时,此双向可切分的深度自注意力模型可以根据当下的计算资源动态选择合适的子模型预测答案,取得精度和时延之间的平衡,在预测答案的准确率得到保证的同时使得用户拥有良好的体验感。
[0011]基于双向可切分深度自注意力网络的轻量化视觉问答方法,包括如下步骤:
[0012]步骤(1):对数据集进行划分;
[0013]步骤(2):构建图像的视觉特征;
[0014]对于一张给定图像,使用现有训练好的目标检测网络检测出图像中的候选框个数m以及其位置;针对每个候选框,将候选框区域对应的图像再输入到该目标检测网络中,并提取输入到该网络分类层前的特征作为该候选框的特征。随后将每个候选框提取出的特征拼接,形成给定图像的视觉特征。为了使得图像特征维度匹配深度自注意力网络,最后使用一个可学习的线性变换对图像特征做进一步处理,并映射到D维空间;
[0015]步骤(3):构建问题的语义特征;
[0016]对于给定的一个问题,使用训练好的词向量模型对问题中的每个单词提取出语义特征,随后将提取出的单词语义特征做拼接,形成问题语义特征。为了使得问题语义特征维度匹配深度自注意力网络,最后使用一个可学习的线性变换对问题特征做进一步处理,映射到D维空间;
[0017]步骤(4):构建深度自注意力网络;
[0018]深度自注意力网络由多个自注意力层堆叠而成,每个自注意力层分为两部分:多头注意力模块和前馈层。利用该深度自注意力网络构建出引导训练的教师网络和最终的双向可切分深度自注意力网络。为了使输入特征能够匹配双向可切分深度自注意力网络中的各个子模型维度,该网络接受维度为D的特征作为输入,并通过一个线性投影变换,将输入特征映射到d维。
[0019]步骤(5):设计宽度切分策略;
[0020]深度自注意力网络中的每个自注意力层是由多个参数矩阵组成的,为了适应不同维度的输入特征,需要对每个参数矩阵做切分,以匹配不同维度的输入并输出合适维度的输出特征。针对维度为d的输入特征,为本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于双向可切分深度自注意力网络的轻量化视觉问答方法,其特征在于,包括如下步骤:步骤(1):对数据集进行划分;步骤(2):构建图像的视觉特征;对于一张给定图像,使用现有训练好的目标检测网络检测出图像中的候选框个数m以及其位置;针对每个候选框,将候选框区域对应的图像再输入到该目标检测网络中,并提取输入到该网络分类层前的特征作为该候选框的特征;随后将每个候选框提取出的特征拼接,形成给定图像的视觉特征;为了使得图像特征维度匹配深度自注意力网络,最后使用一个可学习的线性变换对图像特征做进一步处理,并映射到D维空间;步骤(3):构建问题的语义特征;对于给定的一个问题,使用训练好的词向量模型对问题中的每个单词提取出语义特征,随后将提取出的单词语义特征做拼接,形成问题语义特征;为了使得问题语义特征维度匹配深度自注意力网络,最后使用一个可学习的线性变换对问题特征做进一步处理,映射到D维空间;步骤(4):构建深度自注意力网络;深度自注意力网络由多个自注意力层堆叠而成,每个自注意力层分为两部分:多头注意力模块和前馈层;利用该深度自注意力网络构建出引导训练的教师网络和最终的双向可切分深度自注意力网络;为了使输入特征能够匹配双向可切分深度自注意力网络中的各个子模型维度,该网络接受维度为D的特征作为输入,并通过一个线性投影变换,将输入特征映射到d维;步骤(5):设计宽度切分策略;深度自注意力网络中的每个自注意力层是由多个参数矩阵组成的,为了适应不同维度的输入特征,需要对每个参数矩阵做切分,以匹配不同维度的输入并输出合适维度的输出特征;针对维度为d的输入特征,为了保持自注意力层的原始结构比例,通过宽度切分策略使得输出特征维度仍然为d;值得注意的是,对于拥有不同维度输入特征的不同子模型,均共享自注意力层中的参数矩阵,当d越小,共享的参数量便越小;当d等于原始输入维度D时,参数矩阵不做切分;步骤(6):设计深度切分策略;深度自注意力网络由多个自注意力层堆叠,记层数为L,当子模型的层数l<L时,根据深度切分策略选择该深度自注意力网络中的l层,并归属为子模型自身所拥有;步骤(7):结合两种切分策略、设计过滤原则;通过步骤(5)(6)设计,每个子模型拥有宽度d和深度l;在相同的参数量、计算下,深而窄的子模型会比浅而宽的子模型更高效、结构更合理,提出了一种“深而窄”的过滤原则,在模型训练前就先挑选出一些层数多、宽度低的子模型,而直接丢弃掉那些层数少、宽度高的子模型;通过此项过滤原则,得到筛选后的子模型结构候选集步骤(8):设计自蒸馏训练算法并训练模型;针对步骤(7)得到的子模型结构候选集提出一种自蒸馏训练策略,使得各个子模型能够得到充分训练;首先利用步骤(4)的深度自注意力网络训练一个教师网络,并构建出一
个双向可切分深度自注意力网络,在训练双向可切分深度自注意力网络中的子模型时,先将图像和问题输入到教师网络中得到其预测向量,称为软标签,并通过子模型采样策略,在训练时采样出候选集中的子模型,将这个软标签作为采样出的子模型的监督标签进行训练;步骤(9):模型部署及应用。2.根据权利要求1所述的基于双向可切分深度自注意力网络的轻量化视觉问答方法,其特征在于,步骤(1)所述的数据集的划分,具体如下:所述的数据集采用VQA

v2数据集,针对VQA

v2数据集,进一步划分为3个子集:训练集、验证集和测试集;训练集用于训练模型,验证集用于本地验证模型收敛情况,测试集用于最终的模型性能评估。3.根据权利要求2所述的基于双向可切分深度自注意力网络的轻量化视觉问答方法,其特征在于,步骤(2)所述的构建图像的视觉特征,具体如下:对于一张给定图像,使用现有训练好的Faster R

CNN目标检测网络推断出图像中的候选框个数m以及其位置,并将每个候选框对应的图像区域输入到该Faster R

CNN目标检测网络中,以提取出其视觉特征;对于第i个候选框,其对应的视觉特征为而整张图像对应的视觉特征由每个候选框对应的视觉特征拼接而成,具体表示公式如下:X
image
=[x1,x2,...,x
i
,...,x
m
]
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(公式1)随后,使用一个可学习的线性变换对图像特征X
image
做进一步处理,映射到D维空间得到最终的图像视觉特征具体公式如下:X
input
=Linear(X
image
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(公式2)。4.根据权利要求3所述的基于双向可切分深度自注意力网络的轻量化视觉问答方法,其特征在于,步骤(3)所述的构建问题的语义特征,具体如下:对于给定的一个问题,其包含n个单词,将每个单词输入到预先训练好的GloVe词向量模型中,以提取出其语义特征;对于第j个单词,其对应的语义特征为而整个问题对应的语义特征由每个单词对应的语义特征拼接而成,具体表示公式如下:Y
question
=[y1,y2,...,y
j
,...,y
n
]
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(公式3)随后,使用一个可学习的线性变换将问题语义特征Y
question
做进一步处理,映射到D维空间得到最终的问题语义特征具体公式如下:Y
input
=Linear(Y
question
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(公式4)。5.根据权利要求4所述的基于双向可切分深度自注意力网络的轻量化视觉问答方法,其特征在于,步骤(4)所述的构建深度自注意力网络,具体如下:深度自注意力网络由多个自注意力层堆叠而成,每个自注意力层分为两部分:多头注意力模块和前馈层;利用该深度自注意力网络构建出引导训练的教师网络和最终的双向可切分深度自注意力网络,所述的教师网络和双向可切分深度自注意力网络均采用相同结构
的深度自注意力网络;为了使输入特征能够匹配双向可切分深度自注意力网络中的各个子模型维度,深度自注意力网络接受...

【专利技术属性】
技术研发人员:余宙金子添俞俊
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1