The invention discloses an image description generation method, device, device and computer-readable storage medium, including: inputting the product image to be described into the image encoder that completes the training in advance, outputting the feature vector of the product image; inputting the attribute description information of the product into the attribute information encoder that completes the training in advance, outputting the product attribute Feature vector of the information; feature fusion of the feature vector and the character vector is carried out by using a multi-layer perceptron to obtain the target feature vector of the product image; the target feature vector is input into the decoder that completes the training in advance to generate and output the target image description of the product image. The method, device, device and computer readable storage medium provided by the invention can automatically generate targeted and rich image description for the product image.
【技术实现步骤摘要】
一种图像描述生成方法、装置、设备以及可读存储介质
本专利技术涉及图像处理
,特别是涉及一种图像描述生成方法、装置、设备以及计算机可读存储介质。
技术介绍
在互联网信息大爆发的时代下,内容化具有很重要的业务价值,各个领域开始从粗放争夺用户量转向精细化争夺用户量的过渡,特别是电商产品信息发布。随着互联网应用的全面普及以及技术的快速发展,网络数据吞吐量非常大,整体数据量也呈井喷式增长。与此同时,数据的形式也不再是单一的文本模式,而是日趋多样化,图文结合的信息更能吸引网民的观看,成为人们获取网络内容的重要形式。以产品信息获取为例,产品评测是用户获新发布产品信息的第一手资料。这些图文信息能够帮助用户掌握产品信息,帮助厂商推广产品,为用户的消费提供专业建议。目前图像描述主要还是依靠人工完成,存在工作量大、工作乏味、工作效率低和成本高等问题。现有技术中的图像描述方法可总结为基于生成的方法、基于检索的方法以及基于编码-解码的方法三大类。目前在图像描述领域效果最好的是基于编码-解码的方法,该方法分为编码和解码两个阶段,编码阶段用深度卷积神经网络提取图像的视觉特征,然后将提取到的图像视觉特征作为解码阶段的输入。由于产品图像的属性描述并不能从图像特征中获取,因此上述图像描述的方法并不适用于产品图像的描述。大多数基于编码-解码模型进行改进的图像描述技术,由于使用的是MSCOCO或Flickr30K这些公开数据集,研究方法仅致力于生成能反映图像特征的上下文描述。所以,这些方法生成的句子通常是对视觉内容的一般描述, ...
【技术保护点】
1.一种图像描述生成方法,其特征在于,包括:/n将待描述的产品图像输入至预先完成训练的图像编码器中,输出所述产品图像的特征向量;/n将所述产品的属性描述信息输入至预先完成训练的属性信息编码器中,输出产品属性信息的特征向量;/n利用多层感知器对所述产品图像的特征向量与所述产品属性信息的特征向量进行特征融合,得到所述产品图像的目标特征向量;/n将所述目标特征向量输入至预先完成训练的解码器中,生成并输出所述产品图像的目标图像描述。/n
【技术特征摘要】
1.一种图像描述生成方法,其特征在于,包括:
将待描述的产品图像输入至预先完成训练的图像编码器中,输出所述产品图像的特征向量;
将所述产品的属性描述信息输入至预先完成训练的属性信息编码器中,输出产品属性信息的特征向量;
利用多层感知器对所述产品图像的特征向量与所述产品属性信息的特征向量进行特征融合,得到所述产品图像的目标特征向量;
将所述目标特征向量输入至预先完成训练的解码器中,生成并输出所述产品图像的目标图像描述。
2.如权利要求1所述的方法,其特征在于,所述将待描述的产品图像输入至预先完成训练的图像编码器中,输出所述产品图像的图像特征前还包括:
利用ImageNet数据集对VGG16卷积神经网络进行训练,得到完成训练的图像编码器。
3.如权利要求1所述的方法,其特征在于,所述将所述产品的属性描述信息输入至预先完成训练的属性信息编码器中,输出产品属性信息的特征向量包括:
利用预先完成训练的自然语言处理词向量模型提取所述产品的属性描述信息中的特征向量。
4.如权利要求3所述的方法,其特征在于,所述利用预先完成训练的自然语言处理词向量模型提取所述产品的属性描述信息中的特征向量包括:
对所述产品的属性描述信息进行分词处理后,利用预先完成训练的word2vec模型提取所述属性描述信息的词向量与字向量。
5.如权利要求1所述的方法,其特征在于,所述将所述目标特征向量输入至预先完成训练的解码器中,生成并输出所述产品图像的目标图像描述包括:
将所述目标特性向量输入至注意力机制后,将所述注意力机制的输出输入至预先...
【专利技术属性】
技术研发人员:史秀聪,肖红,张荣跃,符基高,
申请(专利权)人:广东工业大学,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。