视频细粒度识别方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:18784269 阅读:23 留言:0更新日期:2018-08-29 07:08
本发明专利技术公开了视频细粒度识别方法、装置、计算机设备及存储介质,其中方法包括:对待识别的视频进行采样处理,得到n帧图像,n为大于一的正整数;分别获取每帧图像的特征图,并根据各特征图确定出总结特征;根据总结特征确定出视频中的目标的细粒度识别结果。应用本发明专利技术所述方案,能够提高识别结果的准确性。

【技术实现步骤摘要】
视频细粒度识别方法、装置、计算机设备及存储介质
本专利技术涉及细粒度识别技术,特别涉及视频细粒度识别方法、装置、计算机设备及存储介质。
技术介绍
细粒度识别是近年来计算机视觉、模式识别等领域出现的一个非常热门的研究课题。细粒度识别可包括识别出不同类别的动物如鸟、不同类别的花卉、不同类别的车辆、不同类别的菜品等。细粒度识别可应用于不同的场景,比如,视频细粒度识别。视频细粒度识别即指对视频中出现的车辆、动物、菜品等目标进行细粒度识别。比如,一段关于“黄鹂鸟“的视频,对应的细粒度识别结果应为“黄鹂鸟”。现有技术中,可采用以下视频细粒度识别方式:基于检索的方式,即对视频中的目标提取颜色、运动轨迹、形状、结构等最基本的属性,然后利用检索的方法进行识别。但这种方式不易提取到不同目标之间的细小差异,从而导致识别结果的准确性较低。
技术实现思路
有鉴于此,本专利技术提供了视频细粒度识别方法、装置、计算机设备及存储介质,能够提高识别结果的准确性。具体技术方案如下:一种视频细粒度识别方法,包括:对待识别的视频进行采样处理,得到n帧图像,n为大于一的正整数;分别获取每帧图像的特征图,并根据各特征图确定出总结特征;根据所述总结特征确定出所述视频中的目标的细粒度识别结果。根据本专利技术一优选实施例,所述对待识别的视频进行采样处理包括:将所述视频的RGB帧或光流帧分为m段,m为大于一的正整数,且m小于或等于n,分别从每段中抽取出至少一帧图像。根据本专利技术一优选实施例,所述分为m段包括:等分为m段;所述分别从每段中抽取出至少一帧图像包括:分别从每段中抽取出一帧图像。根据本专利技术一优选实施例,所述分别获取每帧图像的特征图包括:针对每帧图像,分别利用预先训练得到的深度神经网络模型,提取出所述图像的特征图。根据本专利技术一优选实施例,所述根据各特征图确定出总结特征包括:将各特征图共同作为处理对象,进行以下预定处理:根据所述处理对象生成注意力加权的中间总结特征;确定Q的取值是否等于P,P为大于一的正整数,Q的初始取值为一;若是,则根据生成的中间总结特征确定出所述总结特征;若否,则根据生成的中间总结特征对所述处理对象进行冗余纹理抑制,并将Q的取值加一,将进行冗余纹理抑制后的处理对象作为新的处理对象,重复执行所述预定处理。根据本专利技术一优选实施例,每个特征图由w*h个c维特征向量组成,每个特征向量表示所述图像中的对应区域的特征,w和h分别等于所述特征图的宽和高;所述根据所述处理对象生成注意力加权的中间总结特征包括:对所述处理对象Xk进行非线性变换,得到非线性变换结果Xk由n*w*h个c维特征向量组成,同样由n*w*h个c维特征向量组成;分别计算中的各特征向量与c维预定向量的相关性,并对计算结果进行归一化,将归一化结果作为系数,计算中的所有特征向量的加权和,将计算结果作为所述中间总结特征为c维特征向量。根据本专利技术一优选实施例,所述根据生成的中间总结特征对所述处理对象进行冗余纹理抑制包括:对所述中间总结特征进行非线性变换,得到非线性变换结果为c维特征向量;分别将所述中的各维度的取值加到所述处理对象Xk中的各特征向量的对应维度的取值上。根据本专利技术一优选实施例,所述根据生成的中间总结特征确定出所述总结特征包括:将生成的各中间总结特征相加,将相加之和作为所述总结特征。根据本专利技术一优选实施例,所述根据所述总结特征确定出所述视频中的目标的细粒度识别结果包括:将所述总结特征输入给预先训练得到的分类器,得到输出的所述视频中的目标的细粒度识别结果。一种视频细粒度识别装置,包括:采样单元、获取单元以及识别单元;所述采样单元,用于对待识别的视频进行采样处理,得到n帧图像,n为大于一的正整数;所述获取单元,用于分别获取每帧图像的特征图,并根据各特征图确定出总结特征;所述识别单元,用于根据所述总结特征确定出所述视频中的目标的细粒度识别结果。根据本专利技术一优选实施例,所述采样单元将所述视频的RGB帧或光流帧分为m段,m为大于一的正整数,且m小于或等于n,分别从每段中抽取出至少一帧图像。根据本专利技术一优选实施例,所述采样单元将所述视频的RGB帧或光流帧等分为m段,分别从每段中抽取出一帧图像。根据本专利技术一优选实施例,所述获取单元针对每帧图像,分别利用预先训练得到的深度神经网络模型,提取出所述图像的特征图。根据本专利技术一优选实施例,所述获取单元将各特征图共同作为处理对象,进行以下预定处理:根据所述处理对象生成注意力加权的中间总结特征;确定Q的取值是否等于P,P为大于一的正整数,Q的初始取值为一;若是,则根据生成的中间总结特征确定出所述总结特征;若否,则根据生成的中间总结特征对所述处理对象进行冗余纹理抑制,并将Q的取值加一,将进行冗余纹理抑制后的处理对象作为新的处理对象,重复执行所述预定处理。根据本专利技术一优选实施例,每个特征图由w*h个c维特征向量组成,每个特征向量表示所述图像中的对应区域的特征,w和h分别等于所述特征图的宽和高;所述获取单元对所述处理对象Xk进行非线性变换,得到非线性变换结果Xk由n*w*h个c维特征向量组成,同样由n*w*h个c维特征向量组成,分别计算中的各特征向量与c维预定向量的相关性,并对计算结果进行归一化,将归一化结果作为系数,计算中的所有特征向量的加权和,将计算结果作为所述中间总结特征为c维特征向量。根据本专利技术一优选实施例,所述获取单元对所述中间总结特征进行非线性变换,得到非线性变换结果为c维特征向量,分别将所述中的各维度的取值加到所述处理对象Xk中的各特征向量的对应维度的取值上,完成冗余纹理抑制。根据本专利技术一优选实施例,所述获取单元将生成的各中间总结特征相加,将相加之和作为所述总结特征。根据本专利技术一优选实施例,所述识别单元将所述总结特征输入给预先训练得到的分类器,得到输出的所述视频中的目标的细粒度识别结果。一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现如以上所述的方法。一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如以上所述的方法。基于上述介绍可以看出,采用本专利技术所述方案,可首先对待识别的视频进行采样处理,从而得到多帧图像,之后,可分别获取每帧图像的特征图,并根据各特征图进一步确定出总结特征,进而根据总结特征确定出视频中的目标的细粒度识别结果,从而克服了现有技术中存在的问题,进而提高了识别结果的准确性。【附图说明】图1为本专利技术所述视频细粒度识别方法第一实施例的流程图。图2为本专利技术所述注意力机制和冗余抑制机制相结合的方式示意图。图3为本专利技术所述视频细粒度识别方法第二实施例的流程图。图4为本专利技术所述视频细粒度识别方法的总体实现过程示意图。图5为本专利技术所述视频细粒度识别装置实施例的组成结构示意图。图6示出了适于用来实现本专利技术实施方式的示例性计算机系统/服务器12的框图。【具体实施方式】为了使本专利技术的技术方案更加清楚、明白,以下参照附图并举实施例,对本专利技术所述方案进行进一步说明。显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本专利技术保护的范围。图1为本专利技术所述视频本文档来自技高网...

【技术保护点】
1.一种视频细粒度识别方法,其特征在于,包括:对待识别的视频进行采样处理,得到n帧图像,n为大于一的正整数;分别获取每帧图像的特征图,并根据各特征图确定出总结特征;根据所述总结特征确定出所述视频中的目标的细粒度识别结果。

【技术特征摘要】
1.一种视频细粒度识别方法,其特征在于,包括:对待识别的视频进行采样处理,得到n帧图像,n为大于一的正整数;分别获取每帧图像的特征图,并根据各特征图确定出总结特征;根据所述总结特征确定出所述视频中的目标的细粒度识别结果。2.根据权利要求1所述的方法,其特征在于,所述对待识别的视频进行采样处理包括:将所述视频的RGB帧或光流帧分为m段,m为大于一的正整数,且m小于或等于n,分别从每段中抽取出至少一帧图像。3.根据权利要求2所述的方法,其特征在于,所述分为m段包括:等分为m段;所述分别从每段中抽取出至少一帧图像包括:分别从每段中抽取出一帧图像。4.根据权利要求1所述的方法,其特征在于,所述分别获取每帧图像的特征图包括:针对每帧图像,分别利用预先训练得到的深度神经网络模型,提取出所述图像的特征图。5.根据权利要求1所述的方法,其特征在于,所述根据各特征图确定出总结特征包括:将各特征图共同作为处理对象,进行以下预定处理:根据所述处理对象生成注意力加权的中间总结特征;确定Q的取值是否等于P,P为大于一的正整数,Q的初始取值为一;若是,则根据生成的中间总结特征确定出所述总结特征;若否,则根据生成的中间总结特征对所述处理对象进行冗余纹理抑制,并将Q的取值加一,将进行冗余纹理抑制后的处理对象作为新的处理对象,重复执行所述预定处理。6.根据权利要求5所述的方法,其特征在于,每个特征图由w*h个c维特征向量组成,每个特征向量表示所述图像中的对应区域的特征,w和h分别等于所述特征图的宽和高;所述根据所述处理对象生成注意力加权的中间总结特征包括:对所述处理对象Xk进行非线性变换,得到非线性变换结果Xk由n*w*h个c维特征向量组成,同样由n*w*h个c维特征向量组成;分别计算中的各特征向量与c维预定向量的相关性,并对计算结果进行归一化,将归一化结果作为系数,计算中的所有特征向量的加权和,将计算结果作为所述中间总结特征为c维特征向量。7.根据权利要求6所述的方法,其特征在于,所述根据生成的中间总结特征对所述处理对象进行冗余纹理抑制包括:对所述中间总结特征进行非线性变换,得到非线性变换结果为c维特征向量;分别将所述中的各维度的取值加到所述处理对象Xk中的各特征向量的对应维度的取值上。8.根据权利要求5所述的方法,其特征在于,所述根据生成的中间总结特征确定出所述总结特征包括:将生成的各中间总结特征相加,将相加之和作为所述总结特征。9.根据权利要求1所述的方法,其特征在于,所述根据所述总结特征确定出所述视频中的目标的细粒度识别结果包括:将所述总结特征输入给预先训练得到的分类器,得到输出的所述视频中的目标的细粒度识别结果。10.一种视频细粒度识别装置,其特征在于,包括:采样单元、获取单元以及识别单元;所...

【专利技术属性】
技术研发人员:谭啸周峰孙昊
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1