基于深度学习的图像描述方法技术

技术编号:21034499 阅读:62 留言:0更新日期:2019-05-04 05:30
一种基于深度学习的图像描述方法,包括将图像数据集分为训练集和测试集;构建图像描述模型;在ImageNet数据集上训练完成残差网络预训练模型,加载残差网络预训练模型参数至图像描述模型中的可变形卷积残差网络中;将训练集中的图像送入空间变换网络中,空间变换网络的输出结果送到可变形卷积残差网络,可变形卷积残差网络输出图像的特征向量;生成图像对应的文本序列;完成语言模型的构建生成图像对应的语句;使用AdamW优化算法对图像描述模型进行训练;输出图像对应的描述语句;本发明专利技术提取的图像特征具有更好的空间表达能力,生成的句子准确度高,语言结构丰富,并且模型训练时间少,收敛速度快。

【技术实现步骤摘要】
基于深度学习的图像描述方法
本专利技术属于人工智能深度学习领域,具体是一种基于深度学习的图像描述方法。
技术介绍
图像描述是机器将一张图像自动翻译为人类能够理解的句子,它是一个涉及计算机视觉、自然语言处理和机器学习的基本问题。系统不仅要识别图像中的物体,还要识别出物体的属性、位置以及图像中物体之间的关系,然后通过自然语言处理转换为具有一定语法结构的句子。图像描述在帮助有视力障碍的人减轻视觉障碍、婴儿早期教育和图像检索方面有很大的意义。传统的图像描述是基于模板和基于语义迁移的方法,但传统方法生成的句子结构单一,会出现图像理解偏差的问题,目前主流的图像描述的方法是基于“编码-解码”的方法。Vinyals等人提出NIC模型,通过卷积神经网络(ConvolutionalNeuralNetwork,CNN)提取图像特征,然后送到长短时记忆网络(LongShort-TermMemory,LSTM)中生成图像对应的句子。Xu等人将LSTM与注意机制进行结合,把图像中物体的位置信息与描述的内容进行关联,使得在生成单词序列的时候,更关注图像中显著位置的物体。XuJia等人提出gLSTM(guiding本文档来自技高网...

【技术保护点】
1.一种基于深度学习的图像描述方法,其特征在于由下述步骤组成:(1)将图像数据集分为训练集和测试集,训练集由图像和图像对应的标注语句组成,测试集由图像组成;(2)构建图像描述模型图像描述模型由空间变换网络、可变形卷积残差网络、双向的自约束门限递归网络串联构成,所述的空间变换网络和可变形卷积残差网络用于提取图像的特征,双向的自约束门限递归网络用于构建语言模型并生成图像对应的语句;(3)在ImageNet数据集上训练完成残差网络预训练模型,加载残差网络预训练模型参数至可变形卷积残差网络中;(4)将训练集中的图像送入空间变换网络中,空间变换网络的输出结果送到可变形卷积残差网络,可变形卷积残差网络输出...

【技术特征摘要】
1.一种基于深度学习的图像描述方法,其特征在于由下述步骤组成:(1)将图像数据集分为训练集和测试集,训练集由图像和图像对应的标注语句组成,测试集由图像组成;(2)构建图像描述模型图像描述模型由空间变换网络、可变形卷积残差网络、双向的自约束门限递归网络串联构成,所述的空间变换网络和可变形卷积残差网络用于提取图像的特征,双向的自约束门限递归网络用于构建语言模型并生成图像对应的语句;(3)在ImageNet数据集上训练完成残差网络预训练模型,加载残差网络预训练模型参数至可变形卷积残差网络中;(4)将训练集中的图像送入空间变换网络中,空间变换网络的输出结果送到可变形卷积残差网络,可变形卷积残差网络输出图像的特征向量;(5)采用one-hot编码方式对训练集中图像对应的描述语句进行编码,生成图像对应的文本序列;(6)将训练集中图像的特征向量和文本序列传输至双向的自约束门限递归网络中,完成语言模型的构建生成图像对应的语句;(7)使用AdamW优化算法对图像描述模型进行训练;(8)将测试集中的一幅图像输...

【专利技术属性】
技术研发人员:郭敏张洁庆彭亚丽肖冰裴炤
申请(专利权)人:陕西师范大学
类型:发明
国别省市:陕西,61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1