【技术实现步骤摘要】
基于视频的图像处理、行为识别、分割、检测方法及设备
[0001]本申请涉及计算机技术中的图像处理、识别、分割和检测等领域,尤其涉及一种基于视频的图像处理、行为识别、分割、检测方法及设备。
技术介绍
[0002]在图像处理领域中的视频行为识别、视频分割、视频检测等任务中,需要使用视觉变换器(Vision Transformer,简称ViT)的编码模块对视频中的图像块特征(token)进行全局的时空自注意力计算,由于视频的token数量较多,时空自注意力的计算量巨大、效率低,在应用于视频行为识别、视频分割、视频检测等图像处理任务时的执行效率低。
技术实现思路
[0003]本申请提供一种基于视频的图像处理、行为识别、分割、检测方法及设备,用以解决现有ViT模型应用于视频行为识别、视频分割、视频检测等图像处理任务时效率低的问题。
[0004]第一方面,本申请提供一种基于视频的图像处理方法,包括:
[0005]获取目标对象的视频帧序列,并获取所述视频帧序列的第一图像特征,所述第一图像特征包含多个图像块特 ...
【技术保护点】
【技术特征摘要】
1.一种基于视频的图像处理方法,其特征在于,包括:获取目标对象的视频帧序列,并获取所述视频帧序列的第一图像特征,所述第一图像特征包含多个图像块特征;对所述多个图像块特征进行时空聚类,得到时空聚类结果,所述时空聚类结果指示所述图像块特征所在的聚类;根据所述时空聚类结果,向所述第一图像特征嵌入所述目标对象的轨迹特征得到第二图像特征,将所述第二图像特征中属于同一聚类的图像块特征聚合,得到第三图像特征;将对所述第一图像特征的空间自注意力计算的第一结果,与对所述第三图像特征的时空自注意力计算的第二结果融合,得到融合特征;根据所述融合特征进行图像处理,得到所述目标对象的图像处理结果。2.根据权利要求1所述的方法,其特征在于,所述对所述多个图像块特征进行时空聚类,得到时空聚类结果,包括:采用时空聚类算法,对所述视频帧序列的第一图像特征所包含的多个图像块特征,在时间和空间两个维度上进行聚类,得到时空聚类结果。3.根据权利要求1所述的方法,其特征在于,所述根据所述时空聚类结果,向所述第一图像特征嵌入所述目标对象的轨迹特征得到第二图像特征,包括:将所述时空聚类结果与所述图像块特征的时空信息拼接,根据拼接结果和时空聚类结果进行线性映射,得到所述目标对象的轨迹特征;将所述轨迹特征嵌入所述第一图像特征,得到第二图像特征。4.根据权利要求3所述的方法,其特征在于,所述将所述时空聚类结果与所述图像块特征的时空信息拼接之前,还包括:获取所述图像块特征的时空信息,所述时空信息包含所述图像块特征对应的图像块所在视频帧的时间信息,以及所述图像块在视频帧中的空间位置信息。5.根据权利要求1所述的方法,其特征在于,所述将所述第二图像特征中属于同一聚类的图像块特征聚合,得到第三图像特征,包括:将所述第二图像特征中的图像块特征进行线性映射,得到所述第二图像特征中的图像块特征的权重系数;根据所述时空聚类结果和所述权重系数,将所述第二图像特征中属于同一聚类的图像块特征加权平均,得到各聚类对应的聚合特征;将各聚类对应的聚合特征拼接,得到所述第三图像特征。6.根据权利要求1所述的方法,其特征在于,所述获取所述视频帧序列的第一图像特征之后,还包括:根据第一线性映射参数,将所述第一图像特征线性映射为第一查询特征;对所述第一图像特征进行下采样。7.根据权利要求6所述的方法,其特征在于,对所述第一图像特征的空间自注意力计算,包括:根据第二线性映射参数和第三线性映射参数,将对所述第一图像特征下采样的结果线性映射为第一键特征和第一值特征;根据所述第一查询特征、第一键特征和第一值特征进行空间自注意力计算,得到第一
结果。8.根据权利要求7所述的方法,其特征在于,对所述第三图像特征的时空自注意力计算,包括:根据第二线性映射参数和第三线性映射参数,将所述第三图像特征线性映射为第二键特征和第二值特征;根据所述第一查询特征、第二键特征和第二值特征进行时空自注意力计算,得到第二结果。9.根据权利要求1
‑
8中任一项所述的方法,其特征在于,通过轨迹嵌入编码模型,根据所述第一图像特征,获取所述融合特征;所述轨迹嵌入编码模型采用金字塔结构,包括多个依次堆叠的编码阶段,所述编码阶段包含依次堆叠的重叠块嵌入模块和多个轨迹嵌入编码块,所...
【专利技术属性】
技术研发人员:项王盟,李超,耿益锋,
申请(专利权)人:阿里巴巴中国有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。