一种基于网络结构搜索的图像描述生成方法技术

技术编号:37538609 阅读:15 留言:0更新日期:2023-05-12 16:07
本发明专利技术公开一种基于网络结构搜索的图像描述生成方法,包括以下步骤:使用网络结构优化方法基于图像分类任务搜索卷积单元,获得普通卷积与规约池化单元结构;使用搜索出的单元结构构建出模型结构,并将模型结构基于图像分类数据集进行训练;使用搜索训练得到的卷积单元模型结构构建视觉注意力模型,应用于图像描述生成任务;基于束搜索对得到的上述应用于图像描述生成任务的视觉注意力模型进行解码与评估,实现图像描述的生成。本发明专利技术解决了当前网络结构搜索技术在各领域重量级任务上应用不足的问题,成功地将网络结构优化方法基于轻量级图像分类任务搜索的卷积结构单元应用到更复杂的图像理解任务中,有效减少模型的参数量,提升相应任务的性能。提升相应任务的性能。提升相应任务的性能。

【技术实现步骤摘要】
一种基于网络结构搜索的图像描述生成方法


[0001]本专利技术涉及一种自然语言处理领域的图像描述生成方法,具体为一种基于网络结构搜索的图像描述生成方法。

技术介绍

[0002]网络结构搜索(Neural Architecture Search,NAS)是自动机器学习(Automated Machine Learning,AutoML)的一个重要的分支,尤其在人工智能正在向高效智能迈进的时期,这个领域的发展显得有更加独特的意义。在自动机器学习领域中,研究人员进行繁琐手动调整的时间被大大减少,转而采用数据驱动的决策方式,由机器自动地决定出最佳的学习策略。
[0003]传统的机器学习流程中,针对不同的任务、不同的数据,研究人员都要完成特征提取、模型设计等一系列工作才能进行下一步,即模型的训练与调优。随着深度学习研究方向的诞生与发展,机器学习从业者逐渐地从特征设计提取的工作中摆脱出来,此类工作更多地交付给模型去处理。但对于模型设计的工作,相关的研究人员还是需要花费大量的宝贵时间去设计出适用的神经网络并进行不断的实验尝试,借以调整超参数并优化其中的细节。与此同时,这种人工模型设计的方式对研究人员理解任务的程度依赖较大,也会受到其思想知识的某些局限性限制,即使经过大量的实验测试与验证,设计出的模型也不能确保达到最优,因此目前许多基于深度学习的方法对相关领域的专家依旧有着较强的依赖性。
[0004]网络结构搜索能够排除上述流程中模型设计工作对人工的过分依赖,能够有效降低难以接受的人工试错与时间成本。它采用网络结构自动搜索的研究思想,能够达到针对特定的任务,在不需要人工过多干预就能实现精确建模的效果。
[0005]网络结构搜索技术虽然在各个领域的基础性任务中得到了不错的效果,但就目前来说,为了设计与搜索出区别于传统人工设计结构的具有突破性的结构,网络结构搜索任务的搜索空间往往要定义的相对大一些,目前较为先进的方法还非常注重拓扑结构的构成优化,这极大地提高了搜索过程的灵活性与结构的多样性,但也导致了网络结构搜索对于计算资源的大量消耗,因此网络结构搜索领域的大部分工作也都聚焦在相对轻量级的任务(如图像处理领域的图像分类任务等)上。这样做的目的主要在于使用更加轻量级的任务来验证提出的方法,以降低网络结构搜索对算力的要求。基于上述的一系列原因,网络结构搜索领域针对较复杂任务,即重量级任务(如图像处理领域的图像描述生成任务等)的处理与应用仍然亟需研究人员的不断探索与尝试。

技术实现思路

[0006]针对当前网络结构搜索技术在各领域的较复杂任务应用稀缺的问题,本专利技术提供一种基于网络结构搜索的图像描述生成方法,可将基础性任务上搜索到的结构单元应用到复杂任务上,并实现任务性能的提升。
[0007]为解决上述技术问题,本专利技术采用的技术方案是:
[0008]本专利技术提供一种基于网络结构搜索的图像描述生成方法,包括以下步骤:
[0009]1)使用网络结构优化方法基于图像分类任务搜索卷积单元,获得普通卷积与规约池化单元结构;
[0010]2)使用搜索出的单元结构构建出模型结构,并将模型结构基于图像分类数据集进行训练;
[0011]3)使用搜索训练得到的卷积单元模型结构构建视觉注意力模型,应用于图像描述生成任务;
[0012]4)基于束搜索对得到的上述应用于图像描述生成任务的视觉注意力模型进行解码与评估,实现图像描述的生成。
[0013]步骤1)具体过程为:
[0014]101)随机生成多个卷积结构加入结构池,使用搜索控制器的单层LSTM编码器对每一个卷积结构进行嵌入编码,将离散的卷积结构映射到连续空间中,并对每一个离散的卷积结构进行训练以及模型性能的评估;
[0015]102)使用评估后的卷积结构及模型性能数据对训练搜索的控制器;
[0016]103)挑选多个性能优秀的卷积结构,在其基础上使用控制器的性能预测器函数f基于编码器的隐藏层状态派生出新的卷积结构嵌入表示e
x


[0017][0018]其中h
t
为编码器的隐藏层状态,e
x

为派生出的新结构嵌入,h

t
为新结构嵌入在各维度上的分量,η为用于派生的超参数,T为编码器的隐藏层维度大小,h

T
为派生出的卷积结构嵌入表示的最后一个分量;
[0019]104)将新卷积结构的表示解码后加入结构池,相当于编码结构过程的逆操作,将结构池中的结构从连续表示恢复成字符序列;重复评估、训练与派生的迭代过程,直至搜索控制器收敛,选择结构池中最优结构作为搜索结果,获得普通卷积与规约池化单元结构。
[0020]步骤3)具体过程如下:
[0021]301)将图片传入搜索训练得到的卷积神经网络加以处理,使用平均池化单元将不同大小的图片编码成相同尺寸的特征向量,缩放到统一尺寸,并将其送入解码器进行扁平化操作;
[0022]302)使用注意力机制对图片向量特征进行相对权重计算,得到上下文向量,并使用门控单元对其加权,以便进行更好的目标物体识别,同时将图片描述进行词嵌入;
[0023]303)将上下文向量、图片描述的词嵌入向量以及编码器的隐藏层状态输入解码单元进行解码,通过解码结果与真实标签的交叉熵损失进行训练。
[0024]步骤4)是将步骤3)中扁平化及之前的处理扩展为K维,以实现束大小为K的束搜索方法,每个预测序列从头开始解码,解码结束后将其从解码队列中移除,增加生成图片描述的多样性。
[0025]本专利技术具有以下有益效果及优点:
[0026]1.本专利技术解决了当前网络结构搜索技术在各领域重量级任务上应用不足的问题,成功地将网络结构优化方法基于轻量级图像分类任务搜索的卷积结构单元应用到更复杂的图像理解任务当中。
[0027]2.此外,本专利技术提出的方法能够有效地减少模型的参数量,提升相应任务的性能,通过搜索的方式自动化地得到适配任务的更优模型结构。
附图说明
[0028]图1为本专利技术基于网络结构搜索的图像描述生成方法的流程图;
[0029]图2为本专利技术网络结构搜索算法搜索卷积单元的流程图;
[0030]图3为本专利技术基于图像分类任务搜索出的卷积单元结构图。
具体实施方式
[0031]下面结合说明书附图对本专利技术作进一步阐述。
[0032]本专利技术提供一种基于网络结构搜索的图像描述生成方法,具体结构流程如图1所示,包括如下步骤:
[0033]1)使用网络结构优化方法基于图像分类任务搜索卷积单元,获得普通卷积与规约池化等单元结构;
[0034]2)将搜索出的卷积结构基于图像分类数据集进行训练;
[0035]3)使用搜索训练得到的卷积单元模型结构构建视觉注意力模型,应用于图像描述生成任务;
[0036]4)基于束搜索对得到的图像理解生成模型进行解码与评估。
[本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于网络结构搜索的图像描述生成方法,其特征在于包括以下步骤:1)使用网络结构优化方法基于图像分类任务搜索卷积单元,获得普通卷积与规约池化单元结构;2)使用搜索出的单元结构构建出模型结构,并将模型结构基于图像分类数据集进行训练;3)使用搜索训练得到的卷积单元模型结构构建视觉注意力模型,应用于图像描述生成任务;4)基于束搜索对得到的上述应用于图像描述生成任务的视觉注意力模型进行解码与评估,实现图像描述的生成。2.按照权利要求1所述的一种基于网络结构搜索的图像描述生成方法,其特征在于:在步骤1)具体过程为:101)随机生成多个卷积结构加入结构池,使用搜索控制器的单层LSTM编码器对每一个卷积结构进行嵌入编码,将离散的卷积结构映射到连续空间中,并对每一个离散的卷积结构进行训练以及模型性能的评估;102)使用评估后的卷积结构及模型性能数据对训练搜索的控制器;103)挑选多个性能优秀的卷积结构,在其基础上使用控制器的性能预测器函数f基于编码器的隐藏层状态派生出新的卷积结构嵌入表示e
x

:e
x

={h
′1,h
′2,

,h

T
}其中h
t
为编码器的隐藏层状态,e
x

为派生...

【专利技术属性】
技术研发人员:刘兴宇姜炎宏
申请(专利权)人:沈阳雅译网络技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1