基于关键词的图像描述方法和装置、设备、介质、程序制造方法及图纸

技术编号:18426545 阅读:19 留言:0更新日期:2018-07-12 02:02
本发明专利技术实施例公开了一种基于关键词的图像描述方法和装置、设备、介质、程序,其中,方法包括:对图像进行关键词提取,得到至少两个对应所述图像的关键词;利用编解码网络,基于所述图像和所述至少两个关键词获得对应所述图像的至少两条描述语句。本发明专利技术上述实施例相比于现有技术中直接生成图像描述的方法,本发明专利技术实施例可以生成更多样、更全面的描述语句,并且由于具有关键词的导向作用,生成的描述语句更符合人类认知习惯。

Keyword based image description method and device, device, medium, and program

An embodiment of the invention discloses an image description method and a device, device, medium and program based on a keyword, wherein the method includes: keyword extraction of an image, and at least two keywords corresponding to the image, using a codec network to obtain pairs based on the picture image and at least two key words. At least two statements of description should be described in the image. Compared with the method of directly generating the image description in the existing technology, the present embodiment of the present invention can generate more samples and more comprehensive description statements, and the description statements generated by the key words are more consistent with the human cognitive habit.

【技术实现步骤摘要】
基于关键词的图像描述方法和装置、设备、介质、程序
本专利技术涉及计算机视觉技术,尤其是一种基于关键词的图像描述方法和装置、设备、介质、程序。
技术介绍
自然语言是视觉理解的重要中间媒介,相比于一定数量的视觉分类,它可以为视觉场景提供更加自由和具体的描述。这就是图像描述生成任务相比于图像分类任务的优势所在,相应地,它也更加困难。近年来,图像描述生成领域比较主流的方法是基于深度神经网络的编解码框架,目前效果最好的方法都是在多模态语言模型中直接以图像作为输入,生成语句作为图像描述的输出。
技术实现思路
本专利技术实施例提供的一种基于关键词的图像描述技术。根据本专利技术实施例的一个方面,提供的一种基于关键词的图像描述方法,包括:对图像进行关键词提取,得到至少两个对应所述图像的关键词;每个所述关键词用于在一个方面对所述图像进行描述,所述图像包括至少两个方面的语义信息;利用编解码网络,基于所述图像和所述至少两个关键词获得对应所述图像的至少两条描述语句。在基于本专利技术上述方法的另一个实施例中,所述对图像进行关键词提取,得到至少两个对应所述图像的关键词,包括:利用关键词提取网络,对图像进行关键词判断,得到至少两个对应所述图像的关键词,所述关键词提取网络经过第二样本图像训练获得,所述第二样本图像标注有第二标注描述语句。在基于本专利技术上述方法的另一个实施例中,所述关键词提取网络的训练方法,包括:基于第二样本图像获得所述第二样本图像对应的至少两个关键词;将所述第二样本图像输入所述关键词提取网络,基于关键词集合获得对应所述第二样本图像的至少两个预测关键词;所述神经网络为多标签分类网络,所述关键词集合包括至少两个关键词;以所述第二样本图像对应的至少两个关键词为监督信息,结合所述预测关键词训练所述神经网络。在基于本专利技术上述方法的另一个实施例中,所述基于第二样本图像获得对应所述第二样本图像的至少两个关键词,包括:利用关键词提取算法,从所述第二样本图像对应的第二标注描述语句中获得至少两个关键词,每个所述第二标注描述语句对应至少一个关键词。在基于本专利技术上述方法的另一个实施例中,将所述第二样本图像输入所述关键词提取网络,基于关键词集合获得对应所述第二样本图像的至少两个预测关键词,包括:将所述第二样本图像输入所述关键词提取网络,得到概率向量;所述概率向量包括至少一个概率值,每个所述概率值与所述关键词集合中的一个关键词相对应;从所述概率向量中获得至少一个大于或等于预设值的概率值,基于所述概率值从所述关键词集合中得到对应所述第二样本图像的至少两个预测关键词。在基于本专利技术上述方法的另一个实施例中,所述编解码网络基于第一样本图像训练获得,所述第一样本图像标注有第一标注描述语句,所述第一标注描述语句对应所述第一样本图像的关键词。在基于本专利技术上述方法的另一个实施例中,所述编解码网络的训练方法,包括:基于第一卷积神经网络和长短期记忆模型构建初始编解码网络;利用映射网络,将第一样本图像及其对应的关键词映射到嵌入空间,得到所述第一样本图像对应的图像特征和所述关键词对应的关键词特征;所述映射网络经过第三样本图像训练获得,所述第三样图像标注有第三标注描述语句及第三标注关键词;基于所述图像特征和所述关键词特征获得输入特征,将所述输入特征输入所述长短期记忆模型,得到对应所述第一样本图像的预测描述语句;以所述第一样本图像对应的第一标注描述语句为监督信息,结合所述预测描述语句训练所述编解码网络。在基于本专利技术上述方法的另一个实施例中,利用映射网络,将第一样本图像及其对应的关键词映射到嵌入空间之前,还包括:利用第二卷积神经网络,对所述第一样本图像进行处理,获得所述第一样本图像对应的第一图像特征;利用自然语言处理网络,对所述第一样本图像对应的关键词进行处理,得到所述关键词对应的第一关键词特征;利用映射网络,将第一样本图像及其对应的关键词映射到嵌入空间,包括:利用映射网络,分别对所述图像特征和所述关键词特征执行映射操作,得到对应所述图像特征和所述关键词特征的映射特征;所述映射特征用于同时表征图像和关键词的特征信息。在基于本专利技术上述方法的另一个实施例中,所述映射网络的训练方法,包括:基于第三样本图像及其对应的第三标注描述语句及第三标注关键词,分别获得所述第三样本图像对应的第三图像特征、所述第三标注描述语句对应的第三语句特征和所述第三标注关键词对应的第三关键词特征;利用映射网络,基于所述图像特征、语句特征和关键词特征获得对应的第一映射特征、第二映射特征和第三映射特征;基于所述第一映射特征、第二映射特征和第三映射特征获得所述映射网络的损失函数值;基于所述损失函数值训练所述映射网络。在基于本专利技术上述方法的另一个实施例中,所述基于第三样本图像及其对应的第三标注描述语句及第三标注关键词,分别获得所述第三样本图像对应的第三图像特征、所述第三标注描述语句对应的第三语句特征和所述第三标注关键词对应的第三关键词特征,包括:利用所述第二卷积神经网络,对所述第三样本图像进行处理,获得所述第三样本图像对应的第三图像特征;利用门控循环单元,对所述第三标注描述语句进行处理,得到所述第三标注描述语句对应的第三语句特征;利用所述自然语言处理网络,对所述第三标注关键词进行处理,得到所述第三标注关键词对应的第三关键词特征。在基于本专利技术上述方法的另一个实施例中,所述映射网络包括第一激活函数、第二激活函数和第三激活函数;利用映射网络,基于所述图像特征、语句特征和关键词特征获得对应的第一映射特征、第二映射特征和第三映射特征,包括:通过所述第一激活函数对所述图像特征进行处理,获得所述图像特征对应的第一映射特征;通过所述第二激活函数对所述语句特征进行处理,获得所述语句特征对应的第二映射特征;通过所述第三激活函数对所述关键词特征进行处理,获得所述关键词特征对应的第三映射特征。在基于本专利技术上述方法的另一个实施例中,基于所述第一映射特征、第二映射特征和第三映射特征获得所述映射网络的损失函数值,包括:基于所述第一映射特征和所述第二映射特征获得第一损失函数值;基于所述第一映射特征和所述第三映射特征获得第二损失函数值;基于所述第二映射特征和所述第三映射特征获得第三损失函数值;通过将所述第一损失函数值、所述第二损失函数值和所述第三损失函数值加权相加得到所述损失函数值。在基于本专利技术上述方法的另一个实施例中,基于所述第一映射特征和所述第二映射特征获得第一损失函数值,包括:获得所述第一映射特征和所述第二映射特征之间的相似度值;利用损失函数,基于所述第一映射特征和所述第二映射特征之间的相似度值,确定所述第一损失函数值;基于所述第一映射特征和所述第三映射特征获得第二损失函数值,包括:获得所述第一映射特征和所述第三映射特征之间的相似度值;利用所述损失函数,基于所述第一映射特征和所述第三映射特征之间的相似度值,确定所述第二损失函数值;基于所述第二映射特征和所述第三映射特征获得第三损失函数值,包括:获得所述第二映射特征和所述第三映射特征之间的相似度值;利用所述损失函数,基于所述第二映射特征和所述第三映射特征之间的相似度值,确定所述第三损失函数值。在基于本专利技术上述方法的另一个实施例中,基于所述损失函数值训练所述映射网络,包括:利用所述损失函数值,通过反向梯度下本文档来自技高网...

【技术保护点】
1.一种基于关键词的图像描述方法,其特征在于,包括:对图像进行关键词提取,得到至少两个对应所述图像的关键词;每个所述关键词用于在一个方面对所述图像进行描述,所述图像包括至少两个方面的语义信息;利用编解码网络,基于所述图像和所述至少两个关键词获得对应所述图像的至少两条描述语句。

【技术特征摘要】
1.一种基于关键词的图像描述方法,其特征在于,包括:对图像进行关键词提取,得到至少两个对应所述图像的关键词;每个所述关键词用于在一个方面对所述图像进行描述,所述图像包括至少两个方面的语义信息;利用编解码网络,基于所述图像和所述至少两个关键词获得对应所述图像的至少两条描述语句。2.根据权利要求1所述的方法,其特征在于,所述对图像进行关键词提取,得到至少两个对应所述图像的关键词,包括:利用关键词提取网络,对图像进行关键词判断,得到至少两个对应所述图像的关键词,所述关键词提取网络经过第二样本图像训练获得,所述第二样本图像标注有第二标注描述语句。3.根据权利要求2所述的方法,其特征在于,所述关键词提取网络的训练方法,包括:基于第二样本图像获得所述第二样本图像对应的至少两个关键词;将所述第二样本图像输入所述关键词提取网络,基于关键词集合获得对应所述第二样本图像的至少两个预测关键词;所述神经网络为多标签分类网络,所述关键词集合包括至少两个关键词;以所述第二样本图像对应的至少两个关键词为监督信息,结合所述预测关键词训练所述神经网络。4.根据权利要求3所述的方法,其特征在于,所述基于第二样本图像获得对应所述第二样本图像的至少两个关键词,包括:利用关键词提取算法,从所述第二样本图像对应的第二标注描述语句中获得至少两个关键词,每个所述第二标注描述语句对应至少一个关键词。5.根据权利要求3或4所述的方法,其特征在于,将所述第二样本图像输入所述关键词提...

【专利技术属性】
技术研发人员:王权钱晨
申请(专利权)人:北京市商汤科技开发有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1