The embodiment of the invention discloses an image processing method and an apparatus, a computer storage medium and a system, wherein the method is applied to a fuser. The method comprises: the fuser obtains M group image features of the image to be processed from an encoder; and the first image representation information corresponding to each group of image features in the M group image features is obtained. According to the first image representation information corresponding to each group of image features and each group of image features, M sets of image representation information are generated, in which one set of image features corresponds to a set of image representation information generated, one set of image representation information includes at least one second image representation information, and M sets of image representation information are fused. The set includes the second image representation information, obtains the target image representation information, and outputs the target image representation information to the decoder. Adopting the embodiment of the present invention is advantageous to improving the accuracy of natural statement description of images and optimizing the quality of image content understanding service.
【技术实现步骤摘要】
图像处理方法、装置、计算机存储介质及服务器
本专利技术涉及互联网
,具体涉及图像处理
,尤其涉及一种图像处理方法、一种图像处理装置、一种计算机存储介质以及一种服务器。
技术介绍
为了方便快速了解图像的主要内容,图像内容理解服务应运而生。图像内容理解服务是将图像内容转换为采用一个自然语句来进行描述的服务,因此图像内容理解也可以理解为图像内容描述。换句话说,图像内容理解可以看成是翻译问题,即将图像内容翻译成自然语句描述。衡量图像内容理解服务的质量优劣的一个重要因素,即是用于描述图像内容的自然语句的描述准确率。现有技术中,图像处理流程一般分为编码阶段及解码阶段。编码阶段:由编码器对原始图像的各帧图像进行图像特征的提取。解码阶段:由解码器根据编码器提取的图像特征预测出用于描述该图像内容的自然语句。通过现有技术的方案虽然实现了图像内容理解服务,但是,现有技术通过解码器和解码器仅是获得用于描述图像内容的自然语句,并未关注从多个角度描述图像,这就无法保证图像内容理解服务的质量。
技术实现思路
本专利技术实施例提供一种图像处理方法、一种图像处理装置、一种计算机存储介质及一种服务器,可提高采用自然语句对图像内容进行描述的描述准确率,提高图像内容理解服务的质量,进而可提高图像内容理解服务的用户体验。第一方面,本专利技术实施例提供了一种图像处理方法,该方法适用于图像处理系统,该图像处理系统中包括编码器、融合器和解码器,该方法包括:融合器从上述编码器获取待处理图像的M组图像特征,其中M为不小于2的整数;融合器获取上述M组图像特征中各组图像特征对应的第一图像表示信息;融合器 ...
【技术保护点】
1.一种图像处理方法,应用于图像处理系统,所述图像处理系统包括编码器和解码器,其特征在于,所述图像处理系统中还包括融合器,所述方法包括:所述融合器从所述编码器获取待处理图像的M组图像特征;所述融合器获取所述M组图像特征中各组图像特征对应的第一图像表示信息;所述融合器根据所述各组图像特征和所述各组图像特征对应的第一图像表示信息,生成M个图像表示信息集合,其中,一组图像特征对应生成的一个图像表示信息集合,一个图像表示信息集合中包括至少一个第二图像表示信息;所述融合器融合所述M个图像表示信息集合包括的第二图像表示信息,得到目标图像表示信息,将所述目标图像表示信息输出给所述解码器;其中,所述目标图像表示信息用于所述解码器对所述待处理图像进行解码得到所述待处理图像的图像描述。
【技术特征摘要】
1.一种图像处理方法,应用于图像处理系统,所述图像处理系统包括编码器和解码器,其特征在于,所述图像处理系统中还包括融合器,所述方法包括:所述融合器从所述编码器获取待处理图像的M组图像特征;所述融合器获取所述M组图像特征中各组图像特征对应的第一图像表示信息;所述融合器根据所述各组图像特征和所述各组图像特征对应的第一图像表示信息,生成M个图像表示信息集合,其中,一组图像特征对应生成的一个图像表示信息集合,一个图像表示信息集合中包括至少一个第二图像表示信息;所述融合器融合所述M个图像表示信息集合包括的第二图像表示信息,得到目标图像表示信息,将所述目标图像表示信息输出给所述解码器;其中,所述目标图像表示信息用于所述解码器对所述待处理图像进行解码得到所述待处理图像的图像描述。2.如权利要求1所述的方法,其特征在于,所述融合器从所述编码器获取待处理图像的M组图像特征包括:所述融合器从所述图像处理系统中包括的M个所述编码器获取待处理图像的M组图像特征,其中,一个编码器对应一组编码参数,一个编码器输出一组图像特征;或者所述融合器从所述图像处理系统的所述编码器的M个编码通道中获取待处理图像的M组图像特征,其中,所述编码器的一个编码通道对应一组编码参数,一个编码通道输出一组图像特征。3.如权利要求1或2所述的方法,其特征在于,所述M组图像特征中各组图像特征中包括所述待处理图像的全局图像特征;所述融合器获取所述M组图像特征中各组图像特征对应的第一图像表示信息包括:所述融合器根据所述M组图像特征中各组图像特征中的全局图像特征和指定线性变换矩阵生成所述各组图像特征对应的第一图像表示信息。4.如权利要求2或3所述的方法,其特征在于,所述融合器根据所述各组图像特征和所述各组图像特征对应的第一图像表示信息,生成M个图像表示信息集合,包括:所述融合器基于第一长短时记忆LSTM单元对任一组图像特征,以及所述各组图像特征对应的第一图像表示信息进行学习,得到所述任一组图像特征对应的图像表示信息A;所述融合器基于第二LSTM单元对所述任一组图像特征和所述图像表示信息A进行学习,得到所述任一组图像特征对应的图像表示信息B;合并所述任一组图像特征对应的所述图像表示信息A和所述图像表示信息B,得到所述任一组图像特征对应的图像表示信息集合i,其中,所述图像表示信息A和所述图像表示信息B为所述图像表示信息集合i中包括的第二图像表示信息;获取各组图像特征对应的图像表示信息集合,得到所述M组图像特征对应的M个图像表示信息集合。5.如权利要求4所述的方法,其特征在于,所述M组图像特征中各组图像特征中还包括所述待处理图像的子区域局部图像特征;所述融合器基于第一LSTM单元对任一组图像特征,以及所述各组图像特征对应的第一图像表示信息进行学习,得到所述任一组图像特征对应的图像表示信息A包括:所述融合器基于第一LSTM单元中的注意力模型对所述任一组图像特征中的子区域局部图像特征和所述任一组图像特征对应的第一图像表示信息进行学习并输出所述任一组图像特征对应的上下文向量;所述融合器基于所述第一LSTM单元对所述任一组图像特征对应的上下文向量和所述各组图像特征对应的第一图像表示信息进行学习得到所述任一组图像特征对应的图像表示信息A。6.如权利要求4所述的方法,其特征在于,所述融合器融合所述M个图像表示信息集合包括的第二图像表示信息得到目标图像表示信...
【专利技术属性】
技术研发人员:姜文浩,马林,刘威,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。