一种图说生成方法及装置制造方法及图纸

技术编号:19426697 阅读:26 留言:0更新日期:2018-11-14 10:52
本发明专利技术提供了一种图说生成方法及装置。该方法包括:采用预先训练的卷积神经网络提取图文数据库中训练集的图像的全局特征;对图文数据库中训练集的图像对应的描述语句进行编码得到描述语句特征;将训练集的图像的全局特征以及描述语句特征输入至递归神经网络,对递归神经网络进行训练;根据递归神经网络的输出构建损失函数,根据损失函数对递归神经网络的参数进行优化;采用预先训练的卷积神经网络提取目标图像的全局特征,将目标图像的全局特征输入至递归神经网络,生成与目标图像对应的描述语句。本发明专利技术实施例采用递归神经网络作为语言模型,避免了现有技术生成的描述语句形式单一的缺陷,能够针对目标图像生成描述丰富、长短可变的描述语句。

【技术实现步骤摘要】
一种图说生成方法及装置
本专利技术涉及多模态融合
,具体涉及一种图说生成方法及装置。
技术介绍
随着人工智能从概念到逐渐进入人类的生活,并逐渐成为人类生活中的一部分,计算机视觉同语音、自然语言等其他模态的信息融合技术广泛的被研究和应用。随着深度学习在计算机视觉、自然语言处理以及语音信息处理等领域取得巨大的突破,为了实现根据图像自动生成描述语句(描述语句中包括多个单词),研究设计了图说生成方法。现有的图说生成方法中,提前定义图像中的目标、属性等概念,同时定义描述语句的模板,在测试阶段采用检索排序的方式生成图说。现有的图说生成方法受定义模板概念数的影响,生成的图说体现的概念非常有限,描述语句形式单一。
技术实现思路
本专利技术实施例提供一种图说生成方法及装置,用于解决现有的图说生成方法生成的描述语句形式单一的问题。本专利技术实施例提供了一种图说生成方法,包括:采用预先训练的卷积神经网络提取图文数据库中训练集的图像的全局特征;对所述图文数据库中训练集的图像对应的描述语句进行编码得到描述语句特征;将所述训练集的图像的全局特征以及所述描述语句特征输入至递归神经网络,对所述递归神经网络进行训练;根据所述递归神经网络的输出构建损失函数,根据所述损失函数对所述递归神经网络的参数进行优化;采用所述预先训练的卷积神经网络提取目标图像的全局特征,将所述目标图像的全局特征输入至所述递归神经网络,生成与所述目标图像对应的描述语句。可选地,所述采用预先训练的卷积神经网络提取图文数据库中训练集的图像的全局特征,包括:根据如下公式提取图文数据库中训练集的图像的全局特征:v=WI·[Fc(I)]+bI其中,v表示图像I的全局特征;WI表示权重矩阵,bI表示偏置;Fc(I)表示所述卷积神经网络对所述图像I处理后全连接层的输出。可选地,对所述图文数据库中训练集的图像对应的描述语句进行编码得到描述语句特征,包括:根据如下公式获取描述语句特征:st=Ws·wt,t∈{1,2,…,T}其中,st表示图像I的描述语句特征;Ws表示权重矩阵;所述图像I的描述语句S=(w1,w2,…,wT),T为描述语句中单词的个数;表示该描述语句的第i个单词,N0为所述图文数据库中的单词总数;wi为单词one-hot向量。可选地,所述递归神经网络为门控递归神经网络GRU。可选地,所述根据所述递归神经网络的输出构建损失函数,包括:对所述递归神经网络的输出进行归一操作;根据归一操作结果构建损失函数;所述损失函数的公式为:其中,C(S,I;θ)表示通过参数为θ的递归神经网络针对图像I产生描述语句S的条件概率,λθ||θ||2是对所述递归神经网络所有参数θ的正则约束;N表示所述图文数据库中训练集的图像的个数;Ti表示所述训练集中的第i幅图像对应的描述语句的长度;pt,i表示所述训练集中的第i幅图像在t时刻产生单词的概率。可选地,根据所述损失函数对所述递归神经网络的参数进行优化,包括:根据所述损失函数采用反时传播BPTT算法对所述递归神经网络的参数进行优化。可选地,所述方法还包括:获取生成的目标图像对应的描述语句与参考描述语句的相关性。本专利技术实施例提供一种图说生成装置,包括:图像特征提取单元,用于采用预先训练的卷积神经网络提取图文数据库中训练集的图像的全局特征;描述语句特征获取单元,对所述图文数据库中训练集的图像对应的描述语句进行编码得到描述语句特征;递归神经网络训练单元,用于将所述训练集的图像的全局特征以及所述描述语句特征输入至递归神经网络,对所述递归神经网络进行训练;网络参数优化单元,用于根据所述递归神经网络的输出构建损失函数,根据所述损失函数对所述递归神经网络的参数进行优化;描述语句生成单元,用于采用所述预先训练的卷积神经网络提取目标图像的全局特征,将所述目标图像的全局特征输入至所述递归神经网络,生成与所述目标图像对应的描述语句。可选地,所述图像特征提取单元进一步用于:根据如下公式提取图文数据库中训练集的图像的全局特征:v=WI·[Fc(I)]+bI其中,v表示图像I的全局特征;WI表示权重矩阵,bI表示偏置;Fc(I)表示所述卷积神经网络对所述图像I处理后全连接层的输出。可选地,所述描述语句特征获取单元进一步用于:根据如下公式获取描述语句特征:st=Ws·wt,t∈{1,2,…,T}其中,st表示图像I的描述语句特征;Ws表示权重矩阵;所述图像I的描述语句S=(w1,w2,…,wT),T为描述语句中单词的个数;表示该描述语句的第i个单词,N0为所述图文数据库中的单词总数;wi为单词one-hot向量。可选地,所述递归神经网络为门控递归神经网络GRU。可选地,所述网络参数优化单元进一步用于:对所述递归神经网络的输出进行归一操作;根据归一操作结果构建损失函数;所述损失函数的公式为:其中,C(S,I;θ)表示通过参数为θ的递归神经网络针对图像I产生描述语句S的条件概率,λθ||θ||2是对所述递归神经网络所有参数θ的正则约束;N表示所述图文数据库中训练集的图像的个数;Ti表示所述训练集中的第i幅图像对应的描述语句的长度;pt,i表示所述训练集中的第i幅图像在t时刻产生单词的概率。可选地,所述网络参数优化单元进一步用于:根据所述损失函数采用反时传播BPTT算法对所述递归神经网络的参数进行优化。可选地,还包括:相关性获取单元,用于获取生成的目标图像对应的描述语句与参考描述语句的相关性。本专利技术实施例提供一种电子设备,包括:处理器、存储器和总线;其中,处理器和存储器通过总线完成相互间的通信;处理器用于调用存储器中的程序指令,以执行上述的图说生成方法。本专利技术实施例提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行上述的图说生成方法。本专利技术实施例提供的图说生成方法及装置,采用预先训练的卷积神经网络提取图文数据库中训练集的图像的全局特征;对图文数据库中训练集的图像对应的描述语句进行编码得到描述语句特征;将训练集的图像的全局特征以及描述语句特征输入至递归神经网络,对递归神经网络进行训练;根据递归神经网络的输出构建损失函数,根据损失函数对递归神经网络的参数进行优化;采用预先训练的卷积神经网络提取目标图像的全局特征,将目标图像的全局特征输入至递归神经网络,生成与目标图像对应的描述语句。本专利技术实施例采用递归神经网络作为语言模型,避免了现有技术生成的描述语句形式单一的缺陷,能够针对目标图像生成描述丰富、长短可变的描述语句。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术一个实施例的图说生成方法的流程示意图;图2a、图2b和图2c是本专利技术一个实施例的参考图说示意图;图3是本专利技术一个实施例的图说生成装置的结构示意图;图4是本专利技术一个实施例的电子设备的结构示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例本文档来自技高网...

【技术保护点】
1.一种图说生成方法,其特征在于,包括:采用预先训练的卷积神经网络提取图文数据库中训练集的图像的全局特征;对所述图文数据库中训练集的图像对应的描述语句进行编码得到描述语句特征;将所述训练集的图像的全局特征以及所述描述语句特征输入至递归神经网络,对所述递归神经网络进行训练;根据所述递归神经网络的输出构建损失函数,根据所述损失函数对所述递归神经网络的参数进行优化;采用所述预先训练的卷积神经网络提取目标图像的全局特征,将所述目标图像的全局特征输入至所述递归神经网络,生成与所述目标图像对应的描述语句。

【技术特征摘要】
1.一种图说生成方法,其特征在于,包括:采用预先训练的卷积神经网络提取图文数据库中训练集的图像的全局特征;对所述图文数据库中训练集的图像对应的描述语句进行编码得到描述语句特征;将所述训练集的图像的全局特征以及所述描述语句特征输入至递归神经网络,对所述递归神经网络进行训练;根据所述递归神经网络的输出构建损失函数,根据所述损失函数对所述递归神经网络的参数进行优化;采用所述预先训练的卷积神经网络提取目标图像的全局特征,将所述目标图像的全局特征输入至所述递归神经网络,生成与所述目标图像对应的描述语句。2.根据权利要求1所述的方法,其特征在于,所述采用预先训练的卷积神经网络提取图文数据库中训练集的图像的全局特征,包括:根据如下公式提取图文数据库中训练集的图像的全局特征:v=WI·[Fc(I)]+bI其中,v表示图像I的全局特征;WI表示权重矩阵,bI表示偏置;Fc(I)表示所述卷积神经网络对所述图像I处理后全连接层的输出。3.根据权利要求1所述的方法,其特征在于,对所述图文数据库中训练集的图像对应的描述语句进行编码得到描述语句特征,包括:根据如下公式获取描述语句特征:st=Ws·wt,t∈{1,2,…,T}其中,st表示图像I的描述语句特征;Ws表示权重矩阵;所述图像I的描述语句S=(w1,w2,…,wT),T为描述语句中单词的个数;表示该描述语句的第i个单词,N0为所述图文数据库中的单词总数;wi为单词one-hot向量。4.根据权利要求1所述的方法,其特征在于,所述递归神经网络为门控递归神经网络GRU。5.根据权利要求1所述的方法,其特征在于,所述根据所述递归神经网络的输出构建损失函数,包括:对所述递归神经网络的输出进行归一操作;根据归一操作结果构建损失函数;所述损失函数的公式为:其中,C(S,I;θ)表示通过参数为θ的递归神经网络针对图像I产生描述语句S的条件概率,λθ||θ||2是对所述递归神经网络所有参数θ的正则约束;N表示所述图文数据库中训练集的图像的个数;Ti表示所述训练集中的第i幅图像对应的描述语句的长度;pt,i表示所述训练集中的第i幅图像在t时刻产生单词的概率。6.根据权利要求1所述的方法,其特征在于,根据所述损失函数对所述递归神经网络的参数进行优化,包括:根据所述损失函数采用反时传播BPTT算法对所述递归神经网络的参数进行优化。7.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取生成的目标图像对应的描述语句与参考描述语句的相关性。8.一种图说生成装置,其特征在于,包括:图像特征提取单元,用于采用预先训练的卷积神经网络提取图文数据库中训练集的图像的全局特征;描述语句特征获取单元,对所述图文数据库中训练...

【专利技术属性】
技术研发人员:黄欢赵刚
申请(专利权)人:上海荆虹电子科技有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1