一种图像描述生成方法、装置、设备以及可读存储介质制造方法及图纸

技术编号:22565741 阅读:31 留言:0更新日期:2019-11-16 12:18
本发明专利技术公开了一种图像描述生成方法、装置、设备以及计算机可读存储介质,包括:将待描述的产品图像输入至预先完成训练的图像编码器中,输出所述产品图像的特征向量;将所述产品的属性描述信息输入至预先完成训练的属性信息编码器中,输出所述产品属性信息的特征向量;利用多层感知器对所述特征向量与所述字符向量进行特征融合,得到所述产品图像的目标特征向量;将所述目标特征向量输入至预先完成训练的解码器中,生成并输出所述产品图像的目标图像描述。本发明专利技术所提供的方法、装置、设备以及计算机可读存储介质,可以为产品图像自动生成具有针对性的、丰富的图像描述。

An image description generation method, device, device and readable storage medium

The invention discloses an image description generation method, device, device and computer-readable storage medium, including: inputting the product image to be described into the image encoder that completes the training in advance, outputting the feature vector of the product image; inputting the attribute description information of the product into the attribute information encoder that completes the training in advance, outputting the product attribute Feature vector of the information; feature fusion of the feature vector and the character vector is carried out by using a multi-layer perceptron to obtain the target feature vector of the product image; the target feature vector is input into the decoder that completes the training in advance to generate and output the target image description of the product image. The method, device, device and computer readable storage medium provided by the invention can automatically generate targeted and rich image description for the product image.

【技术实现步骤摘要】
一种图像描述生成方法、装置、设备以及可读存储介质
本专利技术涉及图像处理
,特别是涉及一种图像描述生成方法、装置、设备以及计算机可读存储介质。
技术介绍
在互联网信息大爆发的时代下,内容化具有很重要的业务价值,各个领域开始从粗放争夺用户量转向精细化争夺用户量的过渡,特别是电商产品信息发布。随着互联网应用的全面普及以及技术的快速发展,网络数据吞吐量非常大,整体数据量也呈井喷式增长。与此同时,数据的形式也不再是单一的文本模式,而是日趋多样化,图文结合的信息更能吸引网民的观看,成为人们获取网络内容的重要形式。以产品信息获取为例,产品评测是用户获新发布产品信息的第一手资料。这些图文信息能够帮助用户掌握产品信息,帮助厂商推广产品,为用户的消费提供专业建议。目前图像描述主要还是依靠人工完成,存在工作量大、工作乏味、工作效率低和成本高等问题。现有技术中的图像描述方法可总结为基于生成的方法、基于检索的方法以及基于编码-解码的方法三大类。目前在图像描述领域效果最好的是基于编码-解码的方法,该方法分为编码和解码两个阶段,编码阶段用深度卷积神经网络提取图像的视觉特征,然后将提取到的图像视觉特征作为解码阶段的输入。由于产品图像的属性描述并不能从图像特征中获取,因此上述图像描述的方法并不适用于产品图像的描述。大多数基于编码-解码模型进行改进的图像描述技术,由于使用的是MSCOCO或Flickr30K这些公开数据集,研究方法仅致力于生成能反映图像特征的上下文描述。所以,这些方法生成的句子通常是对视觉内容的一般描述,而忽略了背景信息。在真实世界中,以电商产品图像为例,图像视觉信息并不会完全表达产品的一些背景信息。综上所述可以看出,如何有效生成产品图像的图像描述是目前有待解决的问题。
技术实现思路
本专利技术的目的是提供一种图像描述生成方法、装置、设备以及计算机可读存储介质,以解决现有技术中的图像描述方法无法对产品图像进行针对性描述的问题。为解决上述技术问题,本专利技术提供一种图像描述生成方法,包括:将待描述的产品图像输入至预先完成训练的图像编码器中,输出所述产品图像的特征向量;将所述产品的属性描述信息输入至预先完成训练的属性信息编码器中,输出产品属性信息的特征向量;利用多层感知器对所述产品图像的特征向量与所述属性信息的特征向量进行特征融合,得到所述产品图像的目标特征向量;将所述目标特征向量输入至预先完成训练的解码器中,生成并输出所述产品图像的目标图像描述。优选地,所述将待描述的产品图像输入至预先完成训练的图像编码器中,输出所述产品图像的图像特征前还包括:利用ImageNet数据集对VGG16卷积神经网络进行训练,得到完成训练的图像编码器。优选地,所述将所述产品的属性描述信息输入至预先完成训练的属性信息编码器中,输出产品属性信息的特征向量包括:利用预先完成训练的自然语言处理词向量模型提取所述产品的属性描述信息中的特征向量。优选地,所述利用预先完成训练的自然语言处理词向量模型提取所述产品的属性描述信息中的特征向量包括:对所述产品的属性描述信息进行分词处理后,利用预先完成训练的word2vec模型提取所述属性描述信息的词向量与字向量。优选地,所述将所述目标特征向量输入至预先完成训练的解码器中,生成并输出所述产品图像的目标图像描述包括:将所述目标特性向量输入至注意力机制后,将所述注意力机制的输出输入至预先完成训练的长短时记忆神经网络中,输出所述产品图像的目标图像描述。本专利技术还提供了一种图像描述生成装置,包括:图像特征向量提取模块,用于将待描述的产品图像输入至预先完成训练的图像编码器中,输出所述产品图像的特征向量;属性特征向量提取模块,用于将所述产品的属性描述信息输入至预先完成训练的属性信息编码器中,输出产品属性信息的特征向量;特征融合模块,用于利用多层感知器对所述产品图像的特征向量与所述属性信息的特征向量进行特征融合,得到所述产品图像的目标特征向量;图像描述生成模块,用于将所述目标特征向量输入至预先完成训练的解码器中,生成并输出所述产品图像的目标图像描述。优选地,所述特征向量提取模块前还包括:训练模型,用于利用ImageNet数据集对VGG16卷积神经网络进行训练,得到完成训练的图像编码器。优选地,所述图像描述生成模块具体用于:将所述目标特性向量输入至注意力机制后,将所述注意力机制的输出输入至预先完成训练的长短时记忆神经网络中,输出所述产品图像的目标图像描述。本专利技术还提供了一种图像描述生成设备,包括:存储器,用于存储计算机程序;处理器,用于执行所述计算机程序时实现上述一种图像描述生成方法的步骤。本专利技术还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述一种图像描述生成方法的步骤。本专利技术所提供的图像描述生成方法,将待描述的产品图像输入至预先完成训练的图像编码器中,提取所述产品图像的图像特性向量。将所述产品图像中对应产品的属性描述信息输入至属性信息编码器中,得到产品属性信息的特征向量。将所述产品图像的特征向量与所述属性信息的特征向量进行融合,得到所述产品图像的目标特征向量。将所述目标特性向量输入至所述预先完成训练的解码器中,生成所述产品图像的目标图像描述。本专利技术所提供的方法,为了解决现有的图像描述方法不能从产品图像中获取产品属性描述信息,导致不能对产品图像生成具有针对性的图像描述的问题,将利用图像编码器提取到的产品图像的特性向量与属性描述编码器提取的产品属性描述信息的字符向量进行融合,从而生成更加丰富的、具有针对性的图像描述。附图说明为了更清楚的说明本专利技术实施例或现有技术的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术所提供的图像描述生成方法的第一种具体实施例的流程图;图2为本专利技术所提供的图像描述生成方法的第二种具体实施例的流程图;图3为LSTM模型的网络结构示意图;图4为本专利技术实施例所提供的产品图像描述生成算法的网络框架示意图;图5为本专利技术实施例提供的一种图像描述生成装置的结构框图。具体实施方式本专利技术的核心是提供一种图像描述生成方法、装置、设备以及计算机可读存储介质,可以自动为产品图像生成具有针对性的图像描述。为了使本
的人员更好地理解本专利技术方案,下面结合附图和具体实施方式对本专利技术作进一步的详细说明。显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。请参考图1,图1为本专利技术所提供的图像描述生成方法的第本文档来自技高网
...

【技术保护点】
1.一种图像描述生成方法,其特征在于,包括:/n将待描述的产品图像输入至预先完成训练的图像编码器中,输出所述产品图像的特征向量;/n将所述产品的属性描述信息输入至预先完成训练的属性信息编码器中,输出产品属性信息的特征向量;/n利用多层感知器对所述产品图像的特征向量与所述产品属性信息的特征向量进行特征融合,得到所述产品图像的目标特征向量;/n将所述目标特征向量输入至预先完成训练的解码器中,生成并输出所述产品图像的目标图像描述。/n

【技术特征摘要】
1.一种图像描述生成方法,其特征在于,包括:
将待描述的产品图像输入至预先完成训练的图像编码器中,输出所述产品图像的特征向量;
将所述产品的属性描述信息输入至预先完成训练的属性信息编码器中,输出产品属性信息的特征向量;
利用多层感知器对所述产品图像的特征向量与所述产品属性信息的特征向量进行特征融合,得到所述产品图像的目标特征向量;
将所述目标特征向量输入至预先完成训练的解码器中,生成并输出所述产品图像的目标图像描述。


2.如权利要求1所述的方法,其特征在于,所述将待描述的产品图像输入至预先完成训练的图像编码器中,输出所述产品图像的图像特征前还包括:
利用ImageNet数据集对VGG16卷积神经网络进行训练,得到完成训练的图像编码器。


3.如权利要求1所述的方法,其特征在于,所述将所述产品的属性描述信息输入至预先完成训练的属性信息编码器中,输出产品属性信息的特征向量包括:
利用预先完成训练的自然语言处理词向量模型提取所述产品的属性描述信息中的特征向量。


4.如权利要求3所述的方法,其特征在于,所述利用预先完成训练的自然语言处理词向量模型提取所述产品的属性描述信息中的特征向量包括:
对所述产品的属性描述信息进行分词处理后,利用预先完成训练的word2vec模型提取所述属性描述信息的词向量与字向量。


5.如权利要求1所述的方法,其特征在于,所述将所述目标特征向量输入至预先完成训练的解码器中,生成并输出所述产品图像的目标图像描述包括:
将所述目标特性向量输入至注意力机制后,将所述注意力机制的输出输入至预先...

【专利技术属性】
技术研发人员:史秀聪肖红张荣跃符基高
申请(专利权)人:广东工业大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1