基于关键词的图像描述方法和装置、设备、介质、程序制造方法及图纸

技术编号：18426545 阅读：19 留言：0更新日期：2018-07-12 02:02

本发明专利技术实施例公开了一种基于关键词的图像描述方法和装置、设备、介质、程序，其中，方法包括：对图像进行关键词提取，得到至少两个对应所述图像的关键词；利用编解码网络，基于所述图像和所述至少两个关键词获得对应所述图像的至少两条描述语句。本发明专利技术上述实施例相比于现有技术中直接生成图像描述的方法，本发明专利技术实施例可以生成更多样、更全面的描述语句，并且由于具有关键词的导向作用，生成的描述语句更符合人类认知习惯。

Keyword based image description method and device, device, medium, and program

An embodiment of the invention discloses an image description method and a device, device, medium and program based on a keyword, wherein the method includes: keyword extraction of an image, and at least two keywords corresponding to the image, using a codec network to obtain pairs based on the picture image and at least two key words. At least two statements of description should be described in the image. Compared with the method of directly generating the image description in the existing technology, the present embodiment of the present invention can generate more samples and more comprehensive description statements, and the description statements generated by the key words are more consistent with the human cognitive habit.

全部详细技术资料下载

【技术实现步骤摘要】
基于关键词的图像描述方法和装置、设备、介质、程序
本专利技术涉及计算机视觉技术，尤其是一种基于关键词的图像描述方法和装置、设备、介质、程序。
技术介绍
自然语言是视觉理解的重要中间媒介，相比于一定数量的视觉分类，它可以为视觉场景提供更加自由和具体的描述。这就是图像描述生成任务相比于图像分类任务的优势所在，相应地，它也更加困难。近年来，图像描述生成领域比较主流的方法是基于深度神经网络的编解码框架，目前效果最好的方法都是在多模态语言模型中直接以图像作为输入，生成语句作为图像描述的输出。
技术实现思路
本专利技术实施例提供的一种基于关键词的图像描述技术。根据本专利技术实施例的一个方面，提供的一种基于关键词的图像描述方法，包括：对图像进行关键词提取，得到至少两个对应所述图像的关键词；每个所述关键词用于在一个方面对所述图像进行描述，所述图像包括至少两个方面的语义信息；利用编解码网络，基于所述图像和所述至少两个关键词获得对应所述图像的至少两条描述语句。在基于本专利技术上述方法的另一个实施例中，所述对图像进行关键词提取，得到至少两个对应所述图像的关键词，包括：利用关键词提取网络，对图像进行关键词判断，得到至少两个对应所述图像的关键词，所述关键词提取网络经过第二样本图像训练获得，所述第二样本图像标注有第二标注描述语句。在基于本专利技术上述方法的另一个实施例中，所述关键词提取网络的训练方法，包括：基于第二样本图像获得所述第二样本图像对应的至少两个关键词；将所述第二样本图像输入所述关键词提取网络，基于关键词集合获得对应所述第二样本图像的至少两个预测关键词；所述神经网络为多标签分类...

【技术保护点】
1.一种基于关键词的图像描述方法，其特征在于，包括：对图像进行关键词提取，得到至少两个对应所述图像的关键词；每个所述关键词用于在一个方面对所述图像进行描述，所述图像包括至少两个方面的语义信息；利用编解码网络，基于所述图像和所述至少两个关键词获得对应所述图像的至少两条描述语句。

【技术特征摘要】
1.一种基于关键词的图像描述方法，其特征在于，包括：对图像进行关键词提取，得到至少两个对应所述图像的关键词；每个所述关键词用于在一个方面对所述图像进行描述，所述图像包括至少两个方面的语义信息；利用编解码网络，基于所述图像和所述至少两个关键词获得对应所述图像的至少两条描述语句。2.根据权利要求1所述的方法，其特征在于，所述对图像进行关键词提取，得到至少两个对应所述图像的关键词，包括：利用关键词提取网络，对图像进行关键词判断，得到至少两个对应所述图像的关键词，所述关键词提取网络经过第二样本图像训练获得，所述第二样本图像标注有第二标注描述语句。3.根据权利要求2所述的方法，其特征在于，所述关键词提取网络的训练方法，包括：基于第二样本图像获得所述第二样本图像对应的至少两个关键词；将所述第二样本图像输入所述关键词提取网络，基于关键词集合获得对应所述第二样本图像的至少两个预测关键词；所述神经网络为多标签分类网络，所述关键词集合包括至少两个关键词；以所述第二样本图像对应的至少两个关键词为监督信息，结合所述预测关键词训练所述神经网络。4.根据权利要求3所述的方法，其特征在于，所述基于第二样本图像获得对应所述第二样本图像的至少两个关键词，包括：利用关键词提取算法，从所述第二样本图像对应的第二标注描述语句中获得至少两个关键词，每个所述第二标注描述语句对应至少一个关键词。5.根据权利要求3或4所述的方法，其特征在于，将所述第二样本图像输入所述关键词提...

【专利技术属性】
技术研发人员：王权，钱晨，
申请(专利权)人：北京市商汤科技开发有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人