【技术实现步骤摘要】
一种图像描述文本生成方法及装置
[0001]本专利技术涉及图像处理
,特别是涉及一种图像描述文本生成方法及装置。
技术介绍
[0002]图像描述文本是指对图像进行图文转换后所得到的用于描述图像中图像内容的文本。由于用户在查看图像时,可能难以理解图像的图像内容,将图像转化为图像描述文本有助于用户理解图像的图像内容。另外,针对存在视力障碍的用户,可以将图像转化为图像描述文本,然后以语音播放的形式播放图像描述文本,以帮助用户理解图像的图像内容。
[0003]现有技术中,主要采用LSTM(Long Short Term Memory,长短时记忆)算法对待描述图像进行图像描述,从而得到图像描述文本。利用LSTM算法进行图像描述的过程是循环过程,在每一次循环中均生成一个单词,当前循环的输入为待描述图像的图像信息以及之前循环中所有已生成的单词,循环结束后得到的图像描述文本包括所有已生成的单词。然而,循环过程中可能会随着时间推移出现图像信息损失,从而导致最终生成的图像描述文本所描述的内容与待描述图像的图像内容产生偏差,进而所生成图像描述文本的准确度较低。
技术实现思路
[0004]本专利技术实施例的目的在于提供一种图像描述文本生成方法及装置,以提高图像描述的准确度。具体技术方案如下:
[0005]第一方面,本专利技术实施例提供了一种图像描述文本生成方法,所述方法包括:
[0006]检测待描述图像中目标所在的目标区域;
[0007]计算各个目标区域中相同位置的像素点的平均像素值,得 ...
【技术保护点】
【技术特征摘要】
1.一种图像描述文本生成方法,其特征在于,所述方法包括:检测待描述图像中目标所在的目标区域;计算各个目标区域中相同位置的像素点的平均像素值,得到包含各平均像素值的区域特征;基于长短时记忆LSTM特征提取方式,对第一输入信息进行特征提取,得到第一隐藏特征;基于所述目标区域的特征和所述第一隐藏特征,生成各目标区域的权重系数;基于所生成的权重系数,对各个目标区域中相同位置的像素点的像素值进行加权计算,得到第一输出信息,其中,所述第一输入信息的初始值为:所述区域特征;确定第二输入信息为包含所述第一隐藏特征、第一输出信息和第二隐藏特征的信息,其中,所述第二隐藏特征的初始值为空特征;基于所述LSTM特征提取方式,对所述第二输入信息进行特征提取,得到所述第二隐藏特征;基于所述第二隐藏特征,获得预设词汇表中输出概率最高的输出单词;将所述第一输入信息更新为包含所述第一隐藏特征、已获得的输出单词和所述区域特征的信息,并返回所述基于长短时记忆LSTM特征提取方式,对第一输入信息进行特征提取,得到第一隐藏特征的步骤,直至包含已获得的输出单词的输出文本满足预设的输出结束条件,则将所述输出文本确定为图像描述文本。2.根据权利要求1所述的方法,其特征在于,所述检测待描述图像中目标所在的目标区域,包括:对待描述图像进行多层卷积变换,得到特征图像;确定所述特征图像中包含目标的特征的候选区域;将所述待描述图像中与所述候选区域相对应的区域确定为所述待描述图像中目标所在的目标区域。3.根据权利要求2所述的方法,其特征在于,所述将所述待描述图像中与所述候选区域相对应的区域确定为所述待描述图像中目标所在的目标区域,包括:对所述候选区域进行区域缩放处理,得到第一预设尺寸的第一区域;对所述第一区域进行最大池化处理,得到第二预设尺寸的第二区域,并将所述待描述图像中与所述第二区域相对应的区域确定为所述待描述图像中目标所在的目标区域。4.根据权利要求1所述的方法,其特征在于,所述基于长短时记忆LSTM特征提取方式,对第一输入信息进行特征提取,得到第一隐藏特征;基于所述目标区域的特征和所述第一隐藏特征,生成各目标区域的权重系数;基于所生成的权重系数,对各个目标区域中相同位置的像素点的像素值进行加权计算,得到第一输出信息,包括:将所述第一输入信息输入文本生成模型的第一子模型,得到所述第一隐藏特征和所述第一输出信息,其中,所述文本生成模型为预先训练得到的、用于生成图像描述文本的模型,所述文本生成模型包括:第一子模型和第二子模型,所述第一子模型为采用自顶向下的注意力机制的模型;所述基于所述LSTM特征提取方式,对所述第二输入信息进行特征提取,得到第二隐藏特征;基于所述第二隐藏特征,获得预设词汇表中输出概率最高的输出单词,包括:将所述第二输入信息输入所述第二子模型,得到所述第二隐藏特征和所述输出单词,其中,所述第二子模型为基于语言模型变换得到的模型,所述语言模型为用于根据模型输
入信息预测模型输出文本中单词出现概率的模型。5.根据权利要求1
‑
4中任一项所述的方法,其特征在于,所述直至包含已获得的输出单词的输出文本满足预设的输出结束条件,则将所述输出文本确定为图像描述文本,包括:若包含已获得的输出单词的输出文本满足预设的输出结束条件,则基于所述预设词汇表对应的词嵌入矩阵,以词嵌入的方式,获得所述输出文本中的各输出单词对应的词嵌入向量;针对所述输出文本中的每一输出单词,根据该输出单词的位置信息对应的编码方式,对该输出单词进行编码,得到包含该输出单词的位置编码信息的第一词向量,其中,所述编码方式为正弦编码或余弦编码;针对所述输出文本中的每一输出单词,将该输出单词的第一词向量与第一预设矩阵相乘,得到用于表示该输出单词的第一向量,将该输出单词的第一词向量与第二预设矩阵相乘,得到表示该输出单词的标签的第二向量,将该输出单词的第一词向量与第三预设矩阵相乘,得到表示该输出单词的单词含义的第三向量;将所述输出文本中最后一个输出单词对应的第一向量分别与所述输出文本中每一输出单词对应的第二向量相乘,得到多个第一计算结果;将所述输出文本中每一输出单词对应的第一计算结果与第三向量相乘,得到多个第二计算结果,并将多个第二计算结果相加得到第四向量;将所述第四向量与所述预设词嵌入矩阵相乘,得到所述预设词汇表中包含的单词作为所述输出文本的补充单词的概率;基于所获得的单词概率,确定所述输出文本的补充单词;判断添加所述补充单词后的输出文本是否满足预设的补充结束条件;若为否,则将所述输出文本更新为添加所述补充单词后的输出文本,并返回基于所述预设词汇表对应...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。