一种面向通用多模态学习的神经框架搜索方法技术

技术编号：27657716 阅读：7 留言：0更新日期：2021-03-12 14:21

本发明专利技术公开了一种面向通用多模态学习的神经框架搜索方法。本发明专利技术包括以下步骤：1、对图像和文本数据进行数据预处理，提取特征。2、初始化编码器‑解码器结构冗余网络和对应的架构参数。3、从架构参数分布中采样出子结构，并计算结果。4、模型搜索，热启动和交替更新保证搜索结构的稳定性。5、模型训练，将搜索出的最优子网络重新训练，得到最优网络模型。本发明专利技术提出一种针对图像文本多模态建模的神经框架搜索的方法，特别是针对不同的任务搜索到了更优的子网络，降低了网络的参数量计算量，充分利用各模态的深层次特征，提高了扩模态特征的表达能力，并且在三个多模态任务中获得了领先的效果。

全部详细技术资料下载

【技术实现步骤摘要】
一种面向通用多模态学习的神经框架搜索方法
本专利技术提出一种面向通用多模态学习的神经框架搜索方法MMNasNet。
技术介绍
视觉问答(VisualQuestionAnswering)是一项多模态领域的新兴任务，该任务旨在根据提供的图像，对某个给定的关于图像的问题进行回答。具体来讲是输入一副图像和一个问题，通过模型后回答出这个问题所对应的答案。例如，图像内容为一条街道，街道上有各种颜色的房子，停了不同类型的车，还有很多数，行走的行人。当给出一个具体问题时，例如“走在斑马线上的穿黑衣服的行人左边的汽车是什么颜色的？”，模型需要识别到图中的物体还有物体的不同属性然后进行推理得到答案。视觉定位(VisualGrounding)任务旨在根据提供的物体描述，找出图像中相应的物体。例如，图像内容为两个人，左边的人穿着黑夹克，右边的人戴着红色帽子。当给出一个物体描述时，例如“穿黑夹克右边的人的帽子”，模型需要定位到右边的人的那一顶红色帽子上。图文匹配(Image-TextMatching)有两个子任务，分别是图像-文本匹配和文本-图像匹配，其目标是给定一段文本和一定数量的图片或者给定一副图片和一定数量的文本，需要对图片和文本的相关度进行打分并根据分数进行排序，找出前n副最相关的图像。为了得到上述三个任务更准确的预测，机器需要理解给定图像和文本，并在此基础上对两者的信息进行合适的跨模态融合以最大程度地消除语义鸿沟。对比纯文本检索或者阅读理解任务，多模态任务需要从和文本相比不同模态的和不同形式的图像中获得关键信息来得到答案，那...

【技术保护点】
1.一种面向通用多模态学习的神经框架搜索方法，其特征在于包含两点：一个覆盖更多可能性的稳定的高效冗余网络以及一个从冗余网络中搜索到子网络且保证子网络性能和效率的搜索方法；具体包括如下步骤：/n步骤(1)、数据预处理，对图像和文本数据提取特征/n步骤(2)、初始化编码器-解码器结构冗余网络和对应的架构参数；/n步骤(3)、从架构参数分布中采样子结构，并计算结果；/n步骤(4)、模型搜索，分为两个阶段：1.热启动阶段2.交替训练搜索阶段；/n步骤(5)、模型训练，不断优化，直至整个网络模型收敛。/n

【技术特征摘要】
1.一种面向通用多模态学习的神经框架搜索方法，其特征在于包含两点：一个覆盖更多可能性的稳定的高效冗余网络以及一个从冗余网络中搜索到子网络且保证子网络性能和效率的搜索方法；具体包括如下步骤：
步骤(1)、数据预处理，对图像和文本数据提取特征
步骤(2)、初始化编码器-解码器结构冗余网络和对应的架构参数；
步骤(3)、从架构参数分布中采样子结构，并计算结果；
步骤(4)、模型搜索，分为两个阶段：1.热启动阶段2.交替训练搜索阶段；
步骤(5)、模型训练，不断优化，直至整个网络模型收敛。

2.根据权利要求1所述的一种面向通用多模态学习的神经框架搜索方法，其特征在于步骤(1)具体实现如下：
1-1.对图像V进行预处理和特征提取：
对图像V进行亮度归一化并且比例缩放到最小边Pmin像素，最长边裁剪到Pmax像素，得到预处理后图像V′，将V′输入到训练好的Faster-RCNN网络中提取出图像中n个物体的框相应的特征最后dfeat为特征的表示维度，dm为模型隐含层向量维度；
1-2.提取文本数据的特征：
对于给定的单词数量为m的句子通过用GloVe初始化的WordEmbedding层句子的单词级表示再通过单层单向LSTM得到文本特征si表示每个单词的表征，dglove为GloVe特征的表示维度。

3.根据权利要求2所述的一种面向通用多模态学习的神经框架搜索方法，其特征在于步骤(2)具体实现如下：
2-1.定义子操作多头关系注意力模块MHRA(x，y，z，r)；输入x，y，

其中head为：

其中headj为第j个head，Nhead为注意力头的数量，函数A为：

2-2.定义子操作自注意力机制SA(x)＝MHRA(x，x，x，0)；
定义子操作协同注意力机制GA(x，y)＝MHRA(x，y，y，0)；
定义子操作关系自注意力机制RSA(x，r)＝MHRA(x，x，x，r)；
定义子操作前馈网络FFN(x)＝Wf1Dropout(max(Wf0x，0))，其中
2-3.定义编码器层数e，解码器层数为d，初始化每一层的冗余结构，其中每层编码器的冗余结构：
aenc(x)＝{SA(x)，FFN(x)}
每层解码器的冗余结构：
adec(x，y)＝{SA(x)，RSA(x)，GA(x，y)，FFN(x)}；
从而得到编码器Aenc(x)：

和解码器Adec(x，y)：

初始化每个子操作所对应的架构参数：

其中，代表了第i层的SA(x)子操作所对应的架构参数，代表了第i层的RSA(x)子操作所对应的架构参数，GA(x，y)代表了第i层的ga子操作所对应的架构参数，代表了第i层的FFN(x)子操作所对应的架构参数。

4.根据权利要求3所述的一种面向通用多模态学习的神经框架搜索方法，其特征在于步骤(3)具体实现如下：
3-1.通过多项式分布对架构参数Anet在每一层上进行采样，每一层选取一个子操作组成子结构编码器A′enc和子结构解码器A′dec；
3-2.将文本特征Fs通过子结构编码器A′enc得到将图像...

【专利技术属性】
技术研发人员：余宙，俞俊，崔雨豪，
申请(专利权)人：杭州电子科技大学，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人