一种图说生成方法及装置制造方法及图纸

技术编号：19426697 阅读：26 留言：0更新日期：2018-11-14 10:52

本发明专利技术提供了一种图说生成方法及装置。该方法包括：采用预先训练的卷积神经网络提取图文数据库中训练集的图像的全局特征；对图文数据库中训练集的图像对应的描述语句进行编码得到描述语句特征；将训练集的图像的全局特征以及描述语句特征输入至递归神经网络，对递归神经网络进行训练；根据递归神经网络的输出构建损失函数，根据损失函数对递归神经网络的参数进行优化；采用预先训练的卷积神经网络提取目标图像的全局特征，将目标图像的全局特征输入至递归神经网络，生成与目标图像对应的描述语句。本发明专利技术实施例采用递归神经网络作为语言模型，避免了现有技术生成的描述语句形式单一的缺陷，能够针对目标图像生成描述丰富、长短可变的描述语句。

全部详细技术资料下载

【技术实现步骤摘要】
一种图说生成方法及装置
本专利技术涉及多模态融合
，具体涉及一种图说生成方法及装置。
技术介绍
随着人工智能从概念到逐渐进入人类的生活，并逐渐成为人类生活中的一部分，计算机视觉同语音、自然语言等其他模态的信息融合技术广泛的被研究和应用。随着深度学习在计算机视觉、自然语言处理以及语音信息处理等领域取得巨大的突破，为了实现根据图像自动生成描述语句(描述语句中包括多个单词)，研究设计了图说生成方法。现有的图说生成方法中，提前定义图像中的目标、属性等概念，同时定义描述语句的模板，在测试阶段采用检索排序的方式生成图说。现有的图说生成方法受定义模板概念数的影响，生成的图说体现的概念非常有限，描述语句形式单一。
技术实现思路
本专利技术实施例提供一种图说生成方法及装置，用于解决现有的图说生成方法生成的描述语句形式单一的问题。本专利技术实施例提供了一种图说生成方法，包括:采用预先训练的卷积神经网络提取图文数据库中训练集的图像的全局特征；对所述图文数据库中训练集的图像对应的描述语句进行编码得到描述语句特征；将所述训练集的图像的全局特征以及所述描述语句特征输入至递归神经网络，对所述递归神经网络进行训练；根据所述递归神经网络的输出构建损失函数，根据所述损失函数对所述递归神经网络的参数进行优化；采用所述预先训练的卷积神经网络提取目标图像的全局特征，将所述目标图像的全局特征输入至所述递归神经网络，生成与所述目标图像对应的描述语句。可选地，所述采用预先训练的卷积神经网络提取图文数据库中训练集的图像的全局特征，包括：根据如下公式提取图文数据库中训练集的图像的全局特征：v＝WI·[Fc...

【技术保护点】
1.一种图说生成方法，其特征在于，包括:采用预先训练的卷积神经网络提取图文数据库中训练集的图像的全局特征；对所述图文数据库中训练集的图像对应的描述语句进行编码得到描述语句特征；将所述训练集的图像的全局特征以及所述描述语句特征输入至递归神经网络，对所述递归神经网络进行训练；根据所述递归神经网络的输出构建损失函数，根据所述损失函数对所述递归神经网络的参数进行优化；采用所述预先训练的卷积神经网络提取目标图像的全局特征，将所述目标图像的全局特征输入至所述递归神经网络，生成与所述目标图像对应的描述语句。

【技术特征摘要】
1.一种图说生成方法，其特征在于，包括:采用预先训练的卷积神经网络提取图文数据库中训练集的图像的全局特征；对所述图文数据库中训练集的图像对应的描述语句进行编码得到描述语句特征；将所述训练集的图像的全局特征以及所述描述语句特征输入至递归神经网络，对所述递归神经网络进行训练；根据所述递归神经网络的输出构建损失函数，根据所述损失函数对所述递归神经网络的参数进行优化；采用所述预先训练的卷积神经网络提取目标图像的全局特征，将所述目标图像的全局特征输入至所述递归神经网络，生成与所述目标图像对应的描述语句。2.根据权利要求1所述的方法，其特征在于，所述采用预先训练的卷积神经网络提取图文数据库中训练集的图像的全局特征，包括：根据如下公式提取图文数据库中训练集的图像的全局特征：v＝WI·[Fc(I)]+bI其中，v表示图像I的全局特征；WI表示权重矩阵，bI表示偏置；Fc(I)表示所述卷积神经网络对所述图像I处理后全连接层的输出。3.根据权利要求1所述的方法，其特征在于，对所述图文数据库中训练集的图像对应的描述语句进行编码得到描述语句特征，包括：根据如下公式获取描述语句特征：st＝Ws·wt,t∈{1,2,…,T}其中，st表示图像I的描述语句特征；Ws表示权重矩阵；所述图像I的描述语句S＝(w1,w2,…,wT)，T为描述语句中单词的个数；表示该描述语句的第i个单词，N0为所述图文数据库中的单词总数；wi为单词one-hot向量。4.根据权利要求1所述的方法，其特征在于，所述递归神经网络为门控递归神经网络GRU。5.根据权利要求1所述的方法，其特征在于，所述根据所述递归神经网络的输出构建损失函数，包括：对所述递归神经网络的输出进行归一操作；根据归一操作结果构建损失函数；所述损失函数的公式为：其中，C(S,I；θ)表示通过参数为θ的递归神经网络针对图像I产生描述语句S的条件概率，λθ||θ||2是对所述递归神经网络所有参数θ的正则约束；N表示所述图文数据库中训练集的图像的个数；Ti表示所述训练集中的第i幅图像对应的描述语句的长度；pt,i表示所述训练集中的第i幅图像在t时刻产生单词的概率。6.根据权利要求1所述的方法，其特征在于，根据所述损失函数对所述递归神经网络的参数进行优化，包括：根据所述损失函数采用反时传播BPTT算法对所述递归神经网络的参数进行优化。7.根据权利要求1所述的方法，其特征在于，所述方法还包括：获取生成的目标图像对应的描述语句与参考描述语句的相关性。8.一种图说生成装置，其特征在于，包括：图像特征提取单元，用于采用预先训练的卷积神经网络提取图文数据库中训练集的图像的全局特征；描述语句特征获取单元，对所述图文数据库中训练...

【专利技术属性】
技术研发人员：黄欢，赵刚，
申请(专利权)人：上海荆虹电子科技有限公司，
类型：发明
国别省市：上海,31

全部详细技术资料下载我是这个专利的主人