基于注意力特征提取网络的社交网络图像描述生成方法技术

技术编号：22595923 阅读：51 留言：0更新日期：2019-11-20 11:41

本发明专利技术涉及图像理解领域，提出了一种基于注意力特征提取网络的社交网络图像描述生成方法。该方法包括两个部分，基于注意力机制的图像特征提取网络：通过高层图像特征与语言模型上下文计算不同尺度图像的注意力关注区域；基于长短期记忆网络的语言生成模型：通过输入不同尺度的图像特征与前一层语言模型输出生成描述单词。创新性地在描述生成过程中将语言模型的上下文输出用于指导提取图像特征的关注区域，理论系统完备，创新性突出，主要用于对图像自动生成文本描述，在图像理解领域具有很高的实用价值。

A method of social network image description generation based on attention feature extraction network

The invention relates to the field of image understanding, and proposes a method for generating image description of social network based on attention feature extraction network. The method consists of two parts: an image feature extraction network based on attention mechanism: calculating attention regions of images with different scales by high-level image features and language model context; a language generation model based on long-term memory network: generating description words by inputting image features with different scales and the previous language model output. In the process of description generation, the context output of language model is used to guide the region of interest of image feature extraction. The theoretical system is complete and innovative. It is mainly used to automatically generate text description of image. It has high practical value in the field of image understanding.

全部详细技术资料下载

【技术实现步骤摘要】
基于注意力特征提取网络的社交网络图像描述生成方法
本专利技术属于计算机视觉
，具体涉及多种深度学习技术，如基于卷积神经网络的图像特征提取，基于循环网络的长短期记忆网络语言模型。构建注意力特征提取网络的图像描述生成方法。
技术介绍
随着移动互联网的发展，移动社交平台丰富了人们的日常生活。这些社交平台带来了图像数据的快速增长，社交网络中热点话题数据中包含着大量的图像数据，使用纯人工方法对每张图像进行内容标注成本也随之提高。因此，使用智能方法自动提取出图像特征并对图像表达内容进行描述，已经成为了计算机视觉领域的研究热点。社交网络图像数据由于受拍摄设备、拍摄场景等条件限制，所得图像往往具有分辨率较低、图像主题与背景划分不清晰等问题。国内外的研究现状表明，现有的图像描述生成方法，包括多模态循环神经网络、基于注意力机制的翻译模型等，均存在图像的语义特征利用不足的问题。本专利技术提出了一种基于注意力特征提取网络的社交网络图像描述生成方法。将图像描述生成问题转化成编码解码问题，通过对不同深度图像特征进行自适应权重分配，使最终输...

【技术保护点】
1.基于注意力特征提取网络的社交网络图像描述生成方法，其特征在于，将语言模型得到的上下文信息与图像的高层语义信息用于指导图像特征关注区域的提取。主要由基于注意力机制的卷积神经网络特征提取模块与多尺度语言模型的描述生成模块构成，通过将上下文信息用于图像特征提取，将两个模块由各自独立训练改进为融合训练，并在高分辨率与低分辨率图像数据集中均取得了较好的结果。/n

【技术特征摘要】
1.基于注意力特征提取网络的社交网络图像描述生成方法，其特征在于，将语言模型得到的上下文信息与图像的高层语义信息用于指导图像特征关注区域的提取。主要由基于注意力机制的卷积神经网络特征提取模块与多尺度语言模型的描述生成模块构成，通过将上下文信息用于图像特征提取，将两个模块由各自独立训练改进为融合训练，并在高分辨率与低分辨率图像数据集中均取得了较好的结果。<...

【专利技术属性】
技术研发人员：杜军平，薛哲，李金轩，周南，
申请(专利权)人：北京邮电大学，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人