一种图像描述文本生成方法及装置制造方法及图纸

技术编号:30332602 阅读:52 留言:0更新日期:2021-10-10 00:50
本发明专利技术实施例提供了一种图像描述文本生成方法及装置,涉及图像处理技术领域,上述方法包括:检测目标所在的目标区域;计算平均像素值,得到区域特征;对第一输入信息进行特征提取,得到第一隐藏特征;生成各目标区域的权重系数;对各个目标区域中相同位置的像素点的像素值进行加权计算得到第一输出信息;对第二输入信息进行特征提取,得到第二隐藏特征;获得预设词汇表中输出概率最高的输出单词;将第一输入信息更新为包含第一隐藏特征、已获得的输出单词和区域特征的信息,并返回得到第一隐藏特征的步骤,直至输出文本满足输出结束条件,将输出文本确定为图像描述文本。应用本发明专利技术实施例提供的方案能够提高生成图像描述文本的准确度。本的准确度。本的准确度。

【技术实现步骤摘要】
一种图像描述文本生成方法及装置


[0001]本专利技术涉及图像处理
,特别是涉及一种图像描述文本生成方法及装置。

技术介绍

[0002]图像描述文本是指对图像进行图文转换后所得到的用于描述图像中图像内容的文本。由于用户在查看图像时,可能难以理解图像的图像内容,将图像转化为图像描述文本有助于用户理解图像的图像内容。另外,针对存在视力障碍的用户,可以将图像转化为图像描述文本,然后以语音播放的形式播放图像描述文本,以帮助用户理解图像的图像内容。
[0003]现有技术中,主要采用LSTM(Long Short Term Memory,长短时记忆)算法对待描述图像进行图像描述,从而得到图像描述文本。利用LSTM算法进行图像描述的过程是循环过程,在每一次循环中均生成一个单词,当前循环的输入为待描述图像的图像信息以及之前循环中所有已生成的单词,循环结束后得到的图像描述文本包括所有已生成的单词。然而,循环过程中可能会随着时间推移出现图像信息损失,从而导致最终生成的图像描述文本所描述的内容与待描述图像的图像内容产生偏差,进而所生成图像描述文本的准确度较低。

技术实现思路

[0004]本专利技术实施例的目的在于提供一种图像描述文本生成方法及装置,以提高图像描述的准确度。具体技术方案如下:
[0005]第一方面,本专利技术实施例提供了一种图像描述文本生成方法,所述方法包括:
[0006]检测待描述图像中目标所在的目标区域;
[0007]计算各个目标区域中相同位置的像素点的平均像素值,得到包含各平均像素值的区域特征;
[0008]基于长短时记忆LSTM特征提取方式,对第一输入信息进行特征提取,得到第一隐藏特征;基于所述目标区域的特征和所述第一隐藏特征,生成各目标区域的权重系数;基于所生成的权重系数,对各个目标区域中相同位置的像素点的像素值进行加权计算,得到第一输出信息,其中,所述第一输入信息的初始值为:所述区域特征;
[0009]确定第二输入信息为包含所述第一隐藏特征、第一输出信息和第二隐藏特征的信息,其中,所述第二隐藏特征的初始值为空特征;
[0010]基于所述LSTM特征提取方式,对所述第二输入信息进行特征提取,得到所述第二隐藏特征;基于所述第二隐藏特征,获得预设词汇表中输出概率最高的输出单词;
[0011]将所述第一输入信息更新为包含所述第一隐藏特征、已获得的输出单词和所述区域特征的信息,并返回所述基于长短时记忆LSTM特征提取方式,对第一输入信息进行特征提取,得到第一隐藏特征的步骤,直至包含已获得的输出单词的输出文本满足预设的输出结束条件,则将所述输出文本确定为图像描述文本。
[0012]第二方面,本专利技术实施例提供了一种图像描述文本生成装置,所述装置包括:
[0013]目标检测模块,用于检测待描述图像中目标所在的目标区域;
[0014]均值计算模块,用于计算各个目标区域中相同位置的像素点的平均像素值,得到包含各平均像素值的区域特征;
[0015]第一特征提取模块,用于基于长短时记忆LSTM特征提取方式,对第一输入信息进行特征提取,得到第一隐藏特征;基于所述目标区域的特征和所述第一隐藏特征,生成各目标区域的权重系数;基于所生成的权重系数,对各个目标区域中相同位置的像素点的像素值进行加权计算,得到第一输出信息,其中,所述第一输入信息的初始值为:所述区域特征;
[0016]信息确定模块,用于确定第二输入信息为包含所述第一隐藏特征、第一输出信息和第二隐藏特征的信息,其中,所述第二隐藏特征的初始值为空特征;
[0017]第二特征提取模块,用于基于所述LSTM特征提取方式,对所述第二输入信息进行特征提取,得到第二隐藏特征;基于所述第二隐藏特征,获得预设词汇表中输出概率最高的输出单词;
[0018]信息更新模块,用于将所述第一输入信息更新为包含所述第一隐藏特征、已获得的输出单词和所述区域特征的信息,并返回所述基于长短时记忆LSTM特征提取方式,对第一输入信息进行特征提取,得到第一隐藏特征的步骤,直至包含已获得的输出单词的输出文本满足预设的输出结束条件,则将所述输出文本确定为图像描述文本。
[0019]第三方面,本专利技术实施例提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
[0020]存储器,用于存放计算机程序;
[0021]处理器,用于执行存储器上所存放的程序时,实现上述第一方面任一所述的图像描述文本生成方法步骤。
[0022]第四方面,本专利技术实施例提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面任一所述的图像描述文本生成方法步骤。
[0023]本专利技术实施例有益效果:
[0024]本专利技术实施例提供的生成图像描述文本的方案中,检测待描述图像中目标所在的目标区域;计算各个目标区域中相同位置的像素点的平均像素值,得到包含各平均像素点的区域特征;以该区域特征作为第一输入信息的初始值,基于LSTM特征提取方式,对第一输入信息进行特征提取,得到第一隐藏特征;基于目标区域的特征和第一隐藏特征,生成各目标区域的权重系数;基于所生成的权重系数,对各个目标区域中相同位置的像素点的像素值进行加权计算,得到第一输出信息;确定第二输入信息为包含第一隐藏特征、第一输出信息和第二隐藏特征的信息;基于LSTM特征提取方式,对第二输入信息进行特征提取,得到第二隐藏特征;基于第二隐藏特征,获得预设词汇表中输出概率最高的输出单词;将第一输入信息更新为包含第一隐藏特征、已获得的输出单词和区域特征的信息,并返回基于长短时记忆LSTM特征提取方式,对第一输入信息进行特征提取,得到第一隐藏特征的步骤,直至包含已获得的输出单词的输出文本满足预设的输出结束条件,则将输出文本确定为图像描述文本。
[0025]由于目标区域包含目标的特征,而区域特征由各目标区域相同位置的像素点的平均像素点组成,因此区域特征可以表征待描述图像的整体图像特征,从而保证图像信息完
整,并在生成目标区域的权重系数时,考虑了目标区域的特征以及第一隐藏特征,而第一隐藏特征是对第一输入信息进行特征提取得来的,第一输入信息的初始值为区域特征,循环过程中第一输入信息为包含上一循环的第一隐藏特征、已获得的输出单词和区域特征的信息,使得生成的权重系数在每次循环过程中能准确的反映当前循环过程中目标区域的重要程度,进而保证每次循环过程中均获得符合当前已获得的输出单词所构成的文本的文本语境以及待描述图像的图像信息的输出单词。因此,应用本专利技术实施例提供的方案生成图像描述文本,能提高所生成图像描述文本的准确度。
附图说明
[0026]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,还可以根据这本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种图像描述文本生成方法,其特征在于,所述方法包括:检测待描述图像中目标所在的目标区域;计算各个目标区域中相同位置的像素点的平均像素值,得到包含各平均像素值的区域特征;基于长短时记忆LSTM特征提取方式,对第一输入信息进行特征提取,得到第一隐藏特征;基于所述目标区域的特征和所述第一隐藏特征,生成各目标区域的权重系数;基于所生成的权重系数,对各个目标区域中相同位置的像素点的像素值进行加权计算,得到第一输出信息,其中,所述第一输入信息的初始值为:所述区域特征;确定第二输入信息为包含所述第一隐藏特征、第一输出信息和第二隐藏特征的信息,其中,所述第二隐藏特征的初始值为空特征;基于所述LSTM特征提取方式,对所述第二输入信息进行特征提取,得到所述第二隐藏特征;基于所述第二隐藏特征,获得预设词汇表中输出概率最高的输出单词;将所述第一输入信息更新为包含所述第一隐藏特征、已获得的输出单词和所述区域特征的信息,并返回所述基于长短时记忆LSTM特征提取方式,对第一输入信息进行特征提取,得到第一隐藏特征的步骤,直至包含已获得的输出单词的输出文本满足预设的输出结束条件,则将所述输出文本确定为图像描述文本。2.根据权利要求1所述的方法,其特征在于,所述检测待描述图像中目标所在的目标区域,包括:对待描述图像进行多层卷积变换,得到特征图像;确定所述特征图像中包含目标的特征的候选区域;将所述待描述图像中与所述候选区域相对应的区域确定为所述待描述图像中目标所在的目标区域。3.根据权利要求2所述的方法,其特征在于,所述将所述待描述图像中与所述候选区域相对应的区域确定为所述待描述图像中目标所在的目标区域,包括:对所述候选区域进行区域缩放处理,得到第一预设尺寸的第一区域;对所述第一区域进行最大池化处理,得到第二预设尺寸的第二区域,并将所述待描述图像中与所述第二区域相对应的区域确定为所述待描述图像中目标所在的目标区域。4.根据权利要求1所述的方法,其特征在于,所述基于长短时记忆LSTM特征提取方式,对第一输入信息进行特征提取,得到第一隐藏特征;基于所述目标区域的特征和所述第一隐藏特征,生成各目标区域的权重系数;基于所生成的权重系数,对各个目标区域中相同位置的像素点的像素值进行加权计算,得到第一输出信息,包括:将所述第一输入信息输入文本生成模型的第一子模型,得到所述第一隐藏特征和所述第一输出信息,其中,所述文本生成模型为预先训练得到的、用于生成图像描述文本的模型,所述文本生成模型包括:第一子模型和第二子模型,所述第一子模型为采用自顶向下的注意力机制的模型;所述基于所述LSTM特征提取方式,对所述第二输入信息进行特征提取,得到第二隐藏特征;基于所述第二隐藏特征,获得预设词汇表中输出概率最高的输出单词,包括:将所述第二输入信息输入所述第二子模型,得到所述第二隐藏特征和所述输出单词,其中,所述第二子模型为基于语言模型变换得到的模型,所述语言模型为用于根据模型输
入信息预测模型输出文本中单词出现概率的模型。5.根据权利要求1

4中任一项所述的方法,其特征在于,所述直至包含已获得的输出单词的输出文本满足预设的输出结束条件,则将所述输出文本确定为图像描述文本,包括:若包含已获得的输出单词的输出文本满足预设的输出结束条件,则基于所述预设词汇表对应的词嵌入矩阵,以词嵌入的方式,获得所述输出文本中的各输出单词对应的词嵌入向量;针对所述输出文本中的每一输出单词,根据该输出单词的位置信息对应的编码方式,对该输出单词进行编码,得到包含该输出单词的位置编码信息的第一词向量,其中,所述编码方式为正弦编码或余弦编码;针对所述输出文本中的每一输出单词,将该输出单词的第一词向量与第一预设矩阵相乘,得到用于表示该输出单词的第一向量,将该输出单词的第一词向量与第二预设矩阵相乘,得到表示该输出单词的标签的第二向量,将该输出单词的第一词向量与第三预设矩阵相乘,得到表示该输出单词的单词含义的第三向量;将所述输出文本中最后一个输出单词对应的第一向量分别与所述输出文本中每一输出单词对应的第二向量相乘,得到多个第一计算结果;将所述输出文本中每一输出单词对应的第一计算结果与第三向量相乘,得到多个第二计算结果,并将多个第二计算结果相加得到第四向量;将所述第四向量与所述预设词嵌入矩阵相乘,得到所述预设词汇表中包含的单词作为所述输出文本的补充单词的概率;基于所获得的单词概率,确定所述输出文本的补充单词;判断添加所述补充单词后的输出文本是否满足预设的补充结束条件;若为否,则将所述输出文本更新为添加所述补充单词后的输出文本,并返回基于所述预设词汇表对应...

【专利技术属性】
技术研发人员:彭海朋刘冬瑶李丽香
申请(专利权)人:北京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1