一种面向通用多模态学习的神经框架搜索方法技术

技术编号:27657716 阅读:7 留言:0更新日期:2021-03-12 14:21
本发明专利技术公开了一种面向通用多模态学习的神经框架搜索方法。本发明专利技术包括以下步骤:1、对图像和文本数据进行数据预处理,提取特征。2、初始化编码器‑解码器结构冗余网络和对应的架构参数。3、从架构参数分布中采样出子结构,并计算结果。4、模型搜索,热启动和交替更新保证搜索结构的稳定性。5、模型训练,将搜索出的最优子网络重新训练,得到最优网络模型。本发明专利技术提出一种针对图像文本多模态建模的神经框架搜索的方法,特别是针对不同的任务搜索到了更优的子网络,降低了网络的参数量计算量,充分利用各模态的深层次特征,提高了扩模态特征的表达能力,并且在三个多模态任务中获得了领先的效果。

【技术实现步骤摘要】
一种面向通用多模态学习的神经框架搜索方法
本专利技术提出一种面向通用多模态学习的神经框架搜索方法MMNasNet。
技术介绍
视觉问答(VisualQuestionAnswering)是一项多模态领域的新兴任务,该任务旨在根据提供的图像,对某个给定的关于图像的问题进行回答。具体来讲是输入一副图像和一个问题,通过模型后回答出这个问题所对应的答案。例如,图像内容为一条街道,街道上有各种颜色的房子,停了不同类型的车,还有很多数,行走的行人。当给出一个具体问题时,例如“走在斑马线上的穿黑衣服的行人左边的汽车是什么颜色的?”,模型需要识别到图中的物体还有物体的不同属性然后进行推理得到答案。视觉定位(VisualGrounding)任务旨在根据提供的物体描述,找出图像中相应的物体。例如,图像内容为两个人,左边的人穿着黑夹克,右边的人戴着红色帽子。当给出一个物体描述时,例如“穿黑夹克右边的人的帽子”,模型需要定位到右边的人的那一顶红色帽子上。图文匹配(Image-TextMatching)有两个子任务,分别是图像-文本匹配和文本-图像匹配,其目标是给定一段文本和一定数量的图片或者给定一副图片和一定数量的文本,需要对图片和文本的相关度进行打分并根据分数进行排序,找出前n副最相关的图像。为了得到上述三个任务更准确的预测,机器需要理解给定图像和文本,并在此基础上对两者的信息进行合适的跨模态融合以最大程度地消除语义鸿沟。对比纯文本检索或者阅读理解任务,多模态任务需要从和文本相比不同模态的和不同形式的图像中获得关键信息来得到答案,那么如何更高效更轻量化的融合多模态信息就是解决问题的关键。神经框架搜索(NeuralArchitectureSearch,NAS)是自动机器学习(AutoMachineLearning,AutoML)的一个重要的分支。模型的结构设计一直是深度学习性能的关键因素,手工设计模型结构需要大量经验和人工试错并且模型的性能和效率都得不到保障。神经框架搜索旨在针对不同任务自动搜索出性能效率较为平衡的网络结构,在学术界工业界都是备受关注的课题,而神经框架搜索方法优异的特性也是解决上述三个任务的保证。和普通的单模态神经框架搜索任务相比,多模态神经框架搜索任务是至今无人涉及的领域,如何保证搜索到的结构是图像-文本两个模态间的最优子结构是解决多模态的框架搜索任务关键所在。深度学习自2006年产生之后就受到科研机构、工业界的高度关注,发展至今已收获诸多优秀的网络模型和各种有效的训练方法。单一模态的丰富研究支撑起跨模态的研究,使得跨模态任务逐渐成为一个主流研究方向。同时跨模态更符合真实的生活场景,具有丰富的研究意义和实际价值。图像作为近几年来一直发展的研究媒体,瓶颈渐现,而结合了自然语言形成的图像-文本的跨模态研究方向成为学术界工业界的热门研究点,但近年来跨模态领域的模型参数量冗余、计算效率低下、手工设计费时费力,这使得多模态的神经框架搜索任务成为值得深入探索的研究领域。在实际应用方面,多模态神经框架搜索算法具有广泛的应用场景。现有工业界多模态任务各式各样,如多模态检索、推荐,文章自动配图等,但不同的任务几乎都有一套不同的架构,一方面导致了手工设计的成本过高,另一方面也导致算法迁移的难度较大,所以自动的构建网络架构具有十分良好的研究前景及重要的研究意义。综上所述,多模态神经框架搜索是一个值得深入研究的课题,本专利拟从该任务中几个关键点切入展开探讨,解决目前方法存在的难点和重点,形成一套完整的多模态神经框架搜索系统。针对框架来说,现有多模态框架类型很多,如基于双线性池化的,还有基于编码器解码器结构的,且不同的框架所使用的子操作也是各不相同。针对任务来说,自然语言的描述一般来自不同的标注者,具有较高的自由度,不具备统一固定的句子结构。同时,自然场景下的图像载体主题多样,内容复杂富于变化,物体框与框间可能具有较高的相似性和冗余度,而这使得所需要的架构需要,也使得架构搜索方法面临巨大的挑战。具体而言,主要存在如下两方面的难点:(1)如何统一现有的基本结构,设计出冗余网络,保证设计的冗余网络可以覆盖现有较好的结构:前人手工设计的网络具有诸多可取之处,在设计基本结构的时候需要尽可能的覆盖前人手工设计的结构,在之基础上进行搜索改进,一来可以保证公平的对比,二来可以保证搜索出的结构稳定可靠。(2)如何从冗余网络中搜索到最优子网络,保证性能的同时高效:设计出了基本结构后就需要构造出能覆盖基本结构衍生出各种可能的冗余网络。而最终的结构需要从冗余网络中进行搜索得到,而搜索算法则是关键所在,更优的子结构能保证算法的效率和性能。
技术实现思路
本专利技术提供了一种面向通用多模态学习的神经框架搜索方法。本专利技术主要包含两点:一个覆盖更多可能性的稳定的高效冗余网络以及一个从冗余网络中搜索到子网络且保证子网络性能和效率的搜索算法。本专利技术解决其技术问题所采用的的技术方案包括如下步骤:步骤(1)、数据预处理,对图像和文本数据提取特征首先对图像V进行预处理和特征提取:对图像V进行亮度归一化并进行比例缩放得到预处理后图像V′,将V′输入到训练好的Faster-RCNN网络中提取出图像中n个物体的框和相应的图像特征其次提取文本数据的特征:对于给定的单词数量为m的句子通过用GloVe初始化的WordEmbedding层句子的单词级表示再通过单层单向LSTM得到文本特征si表示每个单词的表征。步骤(2)、初始化编码器-解码器结构冗余网络和对应的架构参数:定义子操作多头关系注意力模块MHRA(x,y,z,r)。定义子操作自注意力机制SA(x)=MHRA(x,x,x,0)。定义子操作协同注意力机制GA(x,y)=MHRA(x,y,y,0)。定义子操作关系自注意力机制RSA(x,r)=MHRA(x,x,x,r)。定义子操作前馈网络FFN(x)。定义编码器层数e,解码器层数为d,初始化每一层的冗余结构:其结构如图1所示,其中每层编码器的冗余结构aenc,每层解码器的冗余结构adec。从而得到编码器Aenc和解码器Adec。最后初始化每个子操作所对应的架构参数Anet。步骤(3)、从架构参数分布中采样子结构,并计算结果。首先通过多项式分布对架构参数Anet进行采样得到子结构编码器A′enc和子结构解码器A′dec。将文本特征Fs通过子结构编码器A′enc得到F′s,将图像特征Fv和变换后到文本特征F′s输入到子结构解码器A′dec后得到F′v。如图2所示,其中视觉问答和图文匹配任务将F′s和F′v分别经过注意力消融模块Areduce得到F″s和F″v,然后加和后得到分类向量C。训练阶段视觉问答任务通过交叉熵损失(Cross-entropyLoss)函数进行梯度求导反传,图文匹配任务通过匹配损失(MatchLoss)函数进行梯度反传。视觉定位任务将F′s经过注意力消融模块Areduce得到F″s,F′v不变,然后本文档来自技高网
...

【技术保护点】
1.一种面向通用多模态学习的神经框架搜索方法,其特征在于包含两点:一个覆盖更多可能性的稳定的高效冗余网络以及一个从冗余网络中搜索到子网络且保证子网络性能和效率的搜索方法;具体包括如下步骤:/n步骤(1)、数据预处理,对图像和文本数据提取特征/n步骤(2)、初始化编码器-解码器结构冗余网络和对应的架构参数;/n步骤(3)、从架构参数分布中采样子结构,并计算结果;/n步骤(4)、模型搜索,分为两个阶段:1.热启动阶段2.交替训练搜索阶段;/n步骤(5)、模型训练,不断优化,直至整个网络模型收敛。/n

【技术特征摘要】
1.一种面向通用多模态学习的神经框架搜索方法,其特征在于包含两点:一个覆盖更多可能性的稳定的高效冗余网络以及一个从冗余网络中搜索到子网络且保证子网络性能和效率的搜索方法;具体包括如下步骤:
步骤(1)、数据预处理,对图像和文本数据提取特征
步骤(2)、初始化编码器-解码器结构冗余网络和对应的架构参数;
步骤(3)、从架构参数分布中采样子结构,并计算结果;
步骤(4)、模型搜索,分为两个阶段:1.热启动阶段2.交替训练搜索阶段;
步骤(5)、模型训练,不断优化,直至整个网络模型收敛。


2.根据权利要求1所述的一种面向通用多模态学习的神经框架搜索方法,其特征在于步骤(1)具体实现如下:
1-1.对图像V进行预处理和特征提取:
对图像V进行亮度归一化并且比例缩放到最小边Pmin像素,最长边裁剪到Pmax像素,得到预处理后图像V′,将V′输入到训练好的Faster-RCNN网络中提取出图像中n个物体的框相应的特征最后dfeat为特征的表示维度,dm为模型隐含层向量维度;
1-2.提取文本数据的特征:
对于给定的单词数量为m的句子通过用GloVe初始化的WordEmbedding层句子的单词级表示再通过单层单向LSTM得到文本特征si表示每个单词的表征,dglove为GloVe特征的表示维度。


3.根据权利要求2所述的一种面向通用多模态学习的神经框架搜索方法,其特征在于步骤(2)具体实现如下:
2-1.定义子操作多头关系注意力模块MHRA(x,y,z,r);输入x,y,



其中head为:



其中headj为第j个head,Nhead为注意力头的数量,函数A为:



2-2.定义子操作自注意力机制SA(x)=MHRA(x,x,x,0);
定义子操作协同注意力机制GA(x,y)=MHRA(x,y,y,0);
定义子操作关系自注意力机制RSA(x,r)=MHRA(x,x,x,r);
定义子操作前馈网络FFN(x)=Wf1Dropout(max(Wf0x,0)),其中
2-3.定义编码器层数e,解码器层数为d,初始化每一层的冗余结构,其中每层编码器的冗余结构:
aenc(x)={SA(x),FFN(x)}
每层解码器的冗余结构:
adec(x,y)={SA(x),RSA(x),GA(x,y),FFN(x)};
从而得到编码器Aenc(x):



和解码器Adec(x,y):



初始化每个子操作所对应的架构参数:



其中,代表了第i层的SA(x)子操作所对应的架构参数,代表了第i层的RSA(x)子操作所对应的架构参数,GA(x,y)代表了第i层的ga子操作所对应的架构参数,代表了第i层的FFN(x)子操作所对应的架构参数。


4.根据权利要求3所述的一种面向通用多模态学习的神经框架搜索方法,其特征在于步骤(3)具体实现如下:
3-1.通过多项式分布对架构参数Anet在每一层上进行采样,每一层选取一个子操作组成子结构编码器A′enc和子结构解码器A′dec;
3-2.将文本特征Fs通过子结构编码器A′enc得到将图像...

【专利技术属性】
技术研发人员:余宙俞俊崔雨豪
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1