图像处理方法、装置、计算机存储介质及服务器制造方法及图纸

技术编号:19180174 阅读:16 留言:0更新日期:2018-10-17 00:54
本发明专利技术实施例公开了一种图像处理方法及装置、计算机存储介质和系统,其中方法应用于融合器中,该方法包括:融合器从编码器获取待处理图像的M组图像特征;获取M组图像特征中各组图像特征对应的第一图像表示信息。根据各组图像特征和各组图像特征对应的第一图像表示信息,生成M个图像表示信息集合,其中,一组图像特征对应生成的一个图像表示信息集合,一个图像表示信息集合中包括至少一个第二图像表示信息;融合M个图像表示信息集合包括的第二图像表示信息,得到目标图像表示信息,将所目标图像表示信息输出给所述解码器。采用本发明专利技术实施例,有利于提升图像的自然语句描述准确率,优化图像内容理解服务的质量。

Image processing method, device, computer storage medium and server

The embodiment of the invention discloses an image processing method and an apparatus, a computer storage medium and a system, wherein the method is applied to a fuser. The method comprises: the fuser obtains M group image features of the image to be processed from an encoder; and the first image representation information corresponding to each group of image features in the M group image features is obtained. According to the first image representation information corresponding to each group of image features and each group of image features, M sets of image representation information are generated, in which one set of image features corresponds to a set of image representation information generated, one set of image representation information includes at least one second image representation information, and M sets of image representation information are fused. The set includes the second image representation information, obtains the target image representation information, and outputs the target image representation information to the decoder. Adopting the embodiment of the present invention is advantageous to improving the accuracy of natural statement description of images and optimizing the quality of image content understanding service.

【技术实现步骤摘要】
图像处理方法、装置、计算机存储介质及服务器
本专利技术涉及互联网
,具体涉及图像处理
,尤其涉及一种图像处理方法、一种图像处理装置、一种计算机存储介质以及一种服务器。
技术介绍
为了方便快速了解图像的主要内容,图像内容理解服务应运而生。图像内容理解服务是将图像内容转换为采用一个自然语句来进行描述的服务,因此图像内容理解也可以理解为图像内容描述。换句话说,图像内容理解可以看成是翻译问题,即将图像内容翻译成自然语句描述。衡量图像内容理解服务的质量优劣的一个重要因素,即是用于描述图像内容的自然语句的描述准确率。现有技术中,图像处理流程一般分为编码阶段及解码阶段。编码阶段:由编码器对原始图像的各帧图像进行图像特征的提取。解码阶段:由解码器根据编码器提取的图像特征预测出用于描述该图像内容的自然语句。通过现有技术的方案虽然实现了图像内容理解服务,但是,现有技术通过解码器和解码器仅是获得用于描述图像内容的自然语句,并未关注从多个角度描述图像,这就无法保证图像内容理解服务的质量。
技术实现思路
本专利技术实施例提供一种图像处理方法、一种图像处理装置、一种计算机存储介质及一种服务器,可提高采用自然语句对图像内容进行描述的描述准确率,提高图像内容理解服务的质量,进而可提高图像内容理解服务的用户体验。第一方面,本专利技术实施例提供了一种图像处理方法,该方法适用于图像处理系统,该图像处理系统中包括编码器、融合器和解码器,该方法包括:融合器从上述编码器获取待处理图像的M组图像特征,其中M为不小于2的整数;融合器获取上述M组图像特征中各组图像特征对应的第一图像表示信息;融合器根据上述各组图像特征和上述各组图像特征对应的第一图像表示信息,生成M个隐含状态集合,其中,一组图像特征对应生成的一个图像表示信息集合,一个图像表示信息集合中包括至少一个第二图像表示信息;融合器融合上述M个图像表示信息集合包括的第二图像表示信息,得到目标图像表示信息,将上述目标图像表示信息输出给解码器;其中,上述目标图像表示信息用于解码器对上述待处理图像进行解码得到上述待处理图像的图像描述。在一些可行的实施方式中,上述融合器从上述编码器获取待处理图像的M组图像特征包括:融合器从上述图像处理系统中包括的M个编码器获取待处理图像的M组图像特征,其中,一个编码器对应一组编码参数,一个编码器输出一组图像特征;或者融合器从图像处理系统的编码器的M个编码通道中获取待处理图像的M组图像特征,其中,编码器的一个编码通道对应一组编码参数,一个编码通道输出一组图像特征。在一些可行的实施方式中,上述M组图像特征中各组图像特征中包括待处理图像的全局图像特征;上述融合器获取上述M组图像特征中各组图像特征对应的第一图像表示信息包括:上述融合器根据上述M组图像特征中各组图像特征中的全局图像特征和指定线性变换矩阵生成上述各组图像特征对应的第一图像表示信息。在一些可行的实施方式中,上述各组图像特征对应的第一图像表示信息可为各组图像特征对应的第一隐含状态;上述融合器根据上述各组图像特征和上述各组图像特征对应的第一图像表示信息,生成M个图像表示信息集合,包括:上述融合器基于第一长短时记忆LSTM单元对任一组图像特征,以及上述各组图像特征对应的第一图像表示信息进行学习,得到上述任一组图像特征对应的图像表示信息A;上述融合器基于第二LSTM单元对上述任一组图像特征和上述图像表示信息A进行学习,得到上述任一组图像特征对应的图像表示信息B;合并上述任一组图像特征对应的上述图像表示信息A和上述图像表示信息B得到上述任一组图像特征对应的图像表示信息集合i,其中,上述图像表示信息A和上述图像表示信息B为上述图像表示信息集合i中包括的第二图像表示信息;获取各组图像特征对应的图像表示信息集合,得到上述M组图像特征对应的M个图像表示信息集合。在一些可行的实施方式中,本专利技术实施例提供的图像表示信息可包括隐含状态,上述第一图像表示信息可为第一隐含状态,上述第二图像表示信息可为第二隐含状态,上述隐含状态A和隐含状态B可分别为图像表示信息A和图像表示信息B,下面不再赘述。在一些可行的实施方式中,上述M组图像特征中各组图像特征中还包括上述待处理图像的子区域局部图像特征;上述融合器基于第一LSTM单元对任一组图像特征,以及上述各组图像特征对应的第一图像表示信息进行学习,得到上述任一组图像特征对应的图像表示信息A包括:上述融合器基于第一LSTM单元中的注意力模型对上述任一组图像特征中的子区域局部图像特征和上述任一组图像特征对应的第一图像表示信息进行学习并输出上述任一组图像特征对应的上下文向量;上述融合器基于上述第一LSTM单元对上述任一组图像特征对应的上下文向量和上述各组图像特征对应的第一图像表示信息进行学习得到上述任一组图像特征对应的图像表示信息A。在一些可行的实施方式中,上述融合器融合上述M个图像表示信息集合包括的第二图像表示信息得到目标图像表示信息包括:上述融合器根据上述M个图像表示信息集合中各个图像表示信息集合包括的图像表示信息B确定第三图像表示信息;针对上述各个图像表示信息集合中任一图像表示信息集合j执行如下操作得到上述图像表示信息集合j对应的上下文向量:基于注意力模型对上述第三图像表示信息和上述图像表示信息集合j中的第二图像表示信息进行学习并输出上述图像表示信息集合j对应的上下文向量,其中,一个图像表示信息集合对应一个注意力模型;获取上述M个图像表示信息集合对应的M个上下文向量,并根据上述M个上下文向量得到目标向量矩阵;基于第三LSTM单元对上述目标向量矩阵和上述第三图像表示信息进行处理,生成目标图像表示信息。在一些可行的实施方式中,上述第三LSTM单元至少包括LSTM1和LSTM2,上述基于第三LSTM单元根据上述目标向量矩阵和上述第三图像表示信息生成目标图像表示信息包括:基于上述LSTM1对上述目标向量矩阵中包括的M个上下文向量和上述第三图像表示信息进行学习,得到图像表示信息C;基于上述LSTM2对上述M个图像表示信息集合包括的第二图像表示信息和上述图像表示信息C进行学习,得到图像表示信息D;合并上述图像表示信息C和上述图像表示信息D得到目标图像表示信息集合,并将上述目标图像表示信息集合中的上述图像表示信息C和上述图像表示信息D确定为目标图像表示信息。在一些可行的实施方式中,上述方法还包括:上述融合器从上述解码器获取上述待处理图像的图像描述,并根据上述待处理图像的图像描述确定图像处理的判别监督损失函数;上述融合器根据上述待处理图像的M个图像表示信息集合和上述目标图像表示信息,结合上述判断监督损失函数构建图像处理系统的损失函数;上述融合器根据上述损失函数修正其所采用的LSTM单元的网络参数。在一些可行的实施方式中,上述损失函数还可用于修正解码器所采用的LSTM单元的网络参数。第二方面,本专利技术实施例提供了一种图像处理装置,上述图像处理装置应用于图像处理系统,上述图像处理系统包括编码器和解码器,上述图像处理系统中还包括融合器,上述装置可为融合器,该装置包括:获取单元,用于从上述编码器获取待处理图像的M组图像特征,其中M为不小于2的整数;上述获取单元,还用于获取上述M组图像特征中各组图像特征对应的第一隐含状态;第本文档来自技高网...

【技术保护点】
1.一种图像处理方法,应用于图像处理系统,所述图像处理系统包括编码器和解码器,其特征在于,所述图像处理系统中还包括融合器,所述方法包括:所述融合器从所述编码器获取待处理图像的M组图像特征;所述融合器获取所述M组图像特征中各组图像特征对应的第一图像表示信息;所述融合器根据所述各组图像特征和所述各组图像特征对应的第一图像表示信息,生成M个图像表示信息集合,其中,一组图像特征对应生成的一个图像表示信息集合,一个图像表示信息集合中包括至少一个第二图像表示信息;所述融合器融合所述M个图像表示信息集合包括的第二图像表示信息,得到目标图像表示信息,将所述目标图像表示信息输出给所述解码器;其中,所述目标图像表示信息用于所述解码器对所述待处理图像进行解码得到所述待处理图像的图像描述。

【技术特征摘要】
1.一种图像处理方法,应用于图像处理系统,所述图像处理系统包括编码器和解码器,其特征在于,所述图像处理系统中还包括融合器,所述方法包括:所述融合器从所述编码器获取待处理图像的M组图像特征;所述融合器获取所述M组图像特征中各组图像特征对应的第一图像表示信息;所述融合器根据所述各组图像特征和所述各组图像特征对应的第一图像表示信息,生成M个图像表示信息集合,其中,一组图像特征对应生成的一个图像表示信息集合,一个图像表示信息集合中包括至少一个第二图像表示信息;所述融合器融合所述M个图像表示信息集合包括的第二图像表示信息,得到目标图像表示信息,将所述目标图像表示信息输出给所述解码器;其中,所述目标图像表示信息用于所述解码器对所述待处理图像进行解码得到所述待处理图像的图像描述。2.如权利要求1所述的方法,其特征在于,所述融合器从所述编码器获取待处理图像的M组图像特征包括:所述融合器从所述图像处理系统中包括的M个所述编码器获取待处理图像的M组图像特征,其中,一个编码器对应一组编码参数,一个编码器输出一组图像特征;或者所述融合器从所述图像处理系统的所述编码器的M个编码通道中获取待处理图像的M组图像特征,其中,所述编码器的一个编码通道对应一组编码参数,一个编码通道输出一组图像特征。3.如权利要求1或2所述的方法,其特征在于,所述M组图像特征中各组图像特征中包括所述待处理图像的全局图像特征;所述融合器获取所述M组图像特征中各组图像特征对应的第一图像表示信息包括:所述融合器根据所述M组图像特征中各组图像特征中的全局图像特征和指定线性变换矩阵生成所述各组图像特征对应的第一图像表示信息。4.如权利要求2或3所述的方法,其特征在于,所述融合器根据所述各组图像特征和所述各组图像特征对应的第一图像表示信息,生成M个图像表示信息集合,包括:所述融合器基于第一长短时记忆LSTM单元对任一组图像特征,以及所述各组图像特征对应的第一图像表示信息进行学习,得到所述任一组图像特征对应的图像表示信息A;所述融合器基于第二LSTM单元对所述任一组图像特征和所述图像表示信息A进行学习,得到所述任一组图像特征对应的图像表示信息B;合并所述任一组图像特征对应的所述图像表示信息A和所述图像表示信息B,得到所述任一组图像特征对应的图像表示信息集合i,其中,所述图像表示信息A和所述图像表示信息B为所述图像表示信息集合i中包括的第二图像表示信息;获取各组图像特征对应的图像表示信息集合,得到所述M组图像特征对应的M个图像表示信息集合。5.如权利要求4所述的方法,其特征在于,所述M组图像特征中各组图像特征中还包括所述待处理图像的子区域局部图像特征;所述融合器基于第一LSTM单元对任一组图像特征,以及所述各组图像特征对应的第一图像表示信息进行学习,得到所述任一组图像特征对应的图像表示信息A包括:所述融合器基于第一LSTM单元中的注意力模型对所述任一组图像特征中的子区域局部图像特征和所述任一组图像特征对应的第一图像表示信息进行学习并输出所述任一组图像特征对应的上下文向量;所述融合器基于所述第一LSTM单元对所述任一组图像特征对应的上下文向量和所述各组图像特征对应的第一图像表示信息进行学习得到所述任一组图像特征对应的图像表示信息A。6.如权利要求4所述的方法,其特征在于,所述融合器融合所述M个图像表示信息集合包括的第二图像表示信息得到目标图像表示信...

【专利技术属性】
技术研发人员:姜文浩马林刘威
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1