图像描述方法和装置、电子设备、计算机存储介质、程序制造方法及图纸

技术编号:18352085 阅读:28 留言:0更新日期:2018-07-02 02:28
本公开实施例公开了一种图像描述方法和装置、电子设备、计算机存储介质、程序,其中,方法包括:获取图像对应的二维多通道形式表达的图像特征;基于所述二维多通道形式表达的图像特征,得到至少一个二维多通道形式表达的状态变量;基于所述至少一个二维多通道形式表达的状态变量,得到所述图像的至少一个描述词语。本公开上述实施例有效保留了图像中的空间信息,能更好的指导解码过程中词语的产生;基于二维多通道形式表达的状态变量保留和传递了图像的空间信息。

【技术实现步骤摘要】
图像描述方法和装置、电子设备、计算机存储介质、程序
本公开涉及计算机视觉技术,尤其是一种图像描述方法和装置、电子设备、计算机存储介质、程序。
技术介绍
图像描述的技术发展已久,一种常用算法是“编码-解码”机制。“编码-解码”机制的思路是把图片编码成特征向量,包含图片的主要语义内容。在得到图片对应的特征向量以后,以它为指导,采用每次生成一个单词的方式生成整个句子。
技术实现思路
本公开实施例提供的一种图像描述技术。根据本公开实施例的一个方面,提供的一种图像描述方法,包括:获取图像对应的二维多通道形式表达的图像特征;基于所述二维多通道形式表达的图像特征,得到至少一个二维多通道形式表达的状态变量;基于所述至少一个二维多通道形式表达的状态变量,得到所述图像的至少一个描述词语。在基于本专利技术上述方法的另一个实施例中,所述基于所述二维多通道形式表达的图像特征,得到至少一个二维多通道形式表达的状态变量,包括:将所述二维多通道形式表达的图像特征输入循环神经网络,得到至少一个二维多通道形式表达的状态变量。在基于本专利技术上述方法的另一个实施例中,所述基于所述二维多通道形式表达的图像特征,得到至少一个二维多通道形式表达的状态变量,包括:基于所述二维多通道形式表达的图像特征和二维多通道形式表达的第i状态变量,得到二维多通道形式表达的第i+1状态变量,其中,所述至少一个二维多通道形式表达的状态变量包括所述第i状态变量和所述第i+1状态变量,其中,i≥1。在基于本专利技术上述方法的另一个实施例中,所述基于所述二维多通道形式表达的图像特征和二维多通道形式表达的第i状态变量,得到二维多通道形式表达的第i+1状态变量,包括:基于二维多通道形式表达的第i词语特征、所述图像特征和所述第i状态变量,得到二维多通道形式表达的所述第i+1状态变量,其中,所述第i词语特征是由所述第i状态变量对应的词语得到的。在基于本专利技术上述方法的另一个实施例中,所述基于所述二维多通道形式表达的图像特征和二维多通道形式表达的第i状态变量,得到二维多通道形式表达的第i+1状态变量,包括:对所述第i状态变量进行卷积处理,得到所述第i+1状态变量。在基于本专利技术上述方法的另一个实施例中,所述对所述第i状态变量进行卷积处理,得到所述第i+1状态变量,包括:分别对所述第i状态变量、第i词语特征、所述图像特征进行卷积处理,得到第一卷积结果、第二卷积结果和第三卷积结果;利用激活函数对所述第一卷积结果、所述第二卷积结果和所述第三卷积结果进行处理,得到所述第i+1状态变量。在基于本专利技术上述方法的另一个实施例中,所述利用激活函数对所述第一卷积结果、所述第二卷积结果和所述第三卷积结果进行处理,得到所述第i+1状态变量,包括:对所述第一卷积结果、所述第二卷积结果和所述第三卷积结果进行相加处理,得到合并卷积结果;利用激活函数对所述合并卷积结果进行处理,得到所述第i+1状态变量。在基于本专利技术上述方法的另一个实施例中,所述激活函数具体为线性单元修正函数ReLu。在基于本专利技术上述方法的另一个实施例中,所述获取图像对应的二维多通道形式表达的图像特征,包括:对图像执行卷积操作,得到所述图像对应的二维多通道形式表达的图像特征。在基于本专利技术上述方法的另一个实施例中,所述基于所述至少一个二维多通道形式表达的状态变量,得到所述图像的至少一个描述词语,包括:对所述至少一个二维多通道形式表达的状态变量中的第j状态变量进行池化操作,得到池化结果;基于池化结果,得到所述至少一个描述词语中的第j词语,其中,j≥1。在基于本专利技术上述方法的另一个实施例中,所述基于池化结果,得到所述至少一个描述词语中的第j词语,包括:基于池化结果,得到概率向量;基于所述概率向量中的最大概率值,确定所述第j词语。在基于本专利技术上述方法的另一个实施例中,所述状态变量为隐含态。在基于本专利技术上述方法的另一个实施例中,还包括:确定所述至少一个词语中每个词语的关联通道;确定所述至少一个状态变量中每个状态变量包括的所述关联通道对应的激活区域,其中,所述激活区域包括至少一个激活像素点;基于所述至少一个状态变量中每个状态变量包括的所述关联通道对应的激活区域,对所述词语对应的激活状态变化实现可视化。在基于本专利技术上述方法的另一个实施例中,所述至少一个状态变量中的第k状态变量包括的所述关联通道对应于二维特征图;所述确定所述关联通道在所述至少一个状态变量中每个状态变量对应的激活区域,包括:对所述二维特征图进行插值处理,以使得插值处理后的所述二维特征图的尺寸等于所述图像的尺寸;基于插值处理后的所述二维特征图,获得所述图像中对应数值达到预设阈值的至少一个激活像素点。在基于本专利技术上述方法的另一个实施例中,所述对所述二维特征图进行插值处理,以使得插值处理后的所述二维特征图的尺寸等于所述图像的尺寸,包括:对所述二维特征图进行双三次插值处理,以使得插值处理后的所述二维特征图的尺寸等于所述图像的尺寸。在基于本专利技术上述方法的另一个实施例中,所述确定所述至少一个词语中每个词语的关联通道,包括:确定所述至少一个词语中每个词语与多个通道中每个通道的关联分数;基于所述每个词语与所述多个通道中每个通道的关联分数,从所述多个通道中确定所述每个词语的关联通道。根据本公开实施例的另一个方面,提供的一种图像描述装置,包括:特征获取单元,用于获取图像对应的二维多通道形式表达的图像特征;状态变量单元,用于基于所述二维多通道形式表达的图像特征,得到至少一个二维多通道形式表达的状态变量;词语描述单元,用于基于所述至少一个二维多通道形式表达的状态变量,得到所述图像的至少一个描述词语。在基于本专利技术上述装置的另一个实施例中,所述状态变量单元,具体用于将所述二维多通道形式表达的图像特征输入循环神经网络,得到至少一个二维多通道形式表达的状态变量。在基于本专利技术上述装置的另一个实施例中,所述状态变量单元,具体用于基于所述二维多通道形式表达的图像特征和二维多通道形式表达的第i状态变量,得到二维多通道形式表达的第i+1状态变量,其中,所述至少一个二维多通道形式表达的状态变量包括所述第i状态变量和所述第i+1状态变量,其中,i≥1。在基于本专利技术上述装置的另一个实施例中,所述状态变量单元,用于基于二维多通道形式表达的第i词语特征、所述图像特征和所述第i状态变量,得到二维多通道形式表达的所述第i+1状态变量,其中,所述第i词语特征是由所述第i状态变量对应的词语得到的。在基于本专利技术上述装置的另一个实施例中,所述状态变量单元,用于对所述第i状态变量进行卷积处理,得到所述第i+1状态变量。在基于本专利技术上述装置的另一个实施例中,所述状态变量单元,包括:卷积处理模块,用于分别对所述第i状态变量、第i词语特征、所述图像特征进行卷积处理,得到第一卷积结果、第二卷积结果和第三卷积结果;激活处理模块,用于利用激活函数对所述第一卷积结果、所述第二卷积结果和所述第三卷积结果进行处理,得到所述第i+1状态变量。在基于本专利技术上述装置的另一个实施例中,所述激活处理模块,具体用于对所述第一卷积结果、所述第二卷积结果和所述第三卷积结果进行相加处理,得到合并卷积结果;利用激活函数对所述合并卷积结果进行处理,得到所述第i+1状态变量。在基于本专利技术上述装置的另一个实施本文档来自技高网...
图像描述方法和装置、电子设备、计算机存储介质、程序

【技术保护点】
1.一种图像描述方法,其特征在于,包括:获取图像对应的二维多通道形式表达的图像特征;基于所述二维多通道形式表达的图像特征,得到至少一个二维多通道形式表达的状态变量;基于所述至少一个二维多通道形式表达的状态变量,得到所述图像的至少一个描述词语。

【技术特征摘要】
1.一种图像描述方法,其特征在于,包括:获取图像对应的二维多通道形式表达的图像特征;基于所述二维多通道形式表达的图像特征,得到至少一个二维多通道形式表达的状态变量;基于所述至少一个二维多通道形式表达的状态变量,得到所述图像的至少一个描述词语。2.根据权利要求1所述的方法,其特征在于,所述基于所述二维多通道形式表达的图像特征,得到至少一个二维多通道形式表达的状态变量,包括:将所述二维多通道形式表达的图像特征输入循环神经网络,得到至少一个二维多通道形式表达的状态变量。3.根据权利要求1或2所述的方法,其特征在于,所述基于所述二维多通道形式表达的图像特征,得到至少一个二维多通道形式表达的状态变量,包括:基于所述二维多通道形式表达的图像特征和二维多通道形式表达的第i状态变量,得到二维多通道形式表达的第i+1状态变量,其中,所述至少一个二维多通道形式表达的状态变量包括所述第i状态变量和所述第i+1状态变量,其中,i≥1。4.根据权利要求3所述的方法,其特征在于,所述基于所述二维多通道形式表达的图像特征和二维多通道形式表达的第i状态变量,得到二维多通道形式表达的第i+1状态变量,包括:基于二维多通道形式表达的第i词语特征、所述图像特征和所述第i状态变量,得到二维多通道形式表达的所述第i+1状态变量,其中,所述第i词语特...

【专利技术属性】
技术研发人员:戴勃林达华
申请(专利权)人:北京市商汤科技开发有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1