【技术实现步骤摘要】
本专利技术涉及一种视频处理方法,更具体的说是涉及一种服务监管场景下视频表征融合方法。
技术介绍
1、在服务监管场景下,视频是一种常见的数据形式,服务监管要求模型能够理解视频内容并从视频中识别违规内容。这就需要一种很好的视频表征编码方法把视频包含的语义内容尽可能完整高效得转化为模型能够理解得矩阵表征形式。
2、目前现如今的视频表征编码方法大多以图片编码器(如clip)为基础,比如在video-chatgpt中,首先从视频中均匀抽取视频帧,然后使用图片编码器分别对抽取的视频帧进行编码,得到每个视频帧的表征。但是由于抽取的视频帧由很多,如果直接将所有帧的表征进行拼接的话,这个表征就会很长,这对于模型理解视频内容存在巨大的挑战。一种最简单的方法就是使用简单的池化层(比如最大池化层或者平均池化层)将多个视频帧的表征长度进行压缩,使其缩短为可接受的程度,video-chatgpt就是采用的这种方法,另外,internvideo2则是直接采用现成的视频编码器。video-llama借助blip提出的q-former进行视频帧表征融合。vi
...【技术保护点】
1.一种服务监管场景下视频表征融合方法,其特征在于:包括如下步骤:
2.根据权利要求1所述的服务监管场景下视频表征融合方法,其特征在于:所述步骤二中获取feature cube的具体方式为:首先对视频进行预处理,对视频数据进行均匀抽帧并resize到统一的尺度,然后分别将视频帧送到图片编码器进行编码,得到每个视频帧的表征。
3.根据权利要求2所述的服务监管场景下视频表征融合方法,其特征在于:所述步骤二中构建的表征融合模块是一个多层transformer模型,其中包含自注意力和交叉注意力机制,融合过程中将Q个可学习的Query作为输入,featu
...【技术特征摘要】
1.一种服务监管场景下视频表征融合方法,其特征在于:包括如下步骤:
2.根据权利要求1所述的服务监管场景下视频表征融合方法,其特征在于:所述步骤二中获取feature cube的具体方式为:首先对视频进行预处理,对视频数据进行均匀抽帧并resize到统一的尺度,然后分别将视频帧送到图片编码器进行编码,得到每个视频帧的表征。
3.根据权利要求2所述的服务监管场景下视频表征融合方法,其特征在于:所述步骤二中构建的表征融合模块是一个多层transformer模型,其中包含自注意力和交叉注意力机制,融合过程中将q个可学习的query作为输入,feature cube作为key和value,通过交叉注意力层,逐步将帧表征融合到q个可学习的query中,并通过query之间的自注意力,完成帧表征的相互融合。
4.根据权利要求3所述的服务监管场景下视频表征融合方法,其特征在于:所述步骤二中使用的静态的注意力掩码为一个维度为(s*t*t)的mask cube,具体为将形状为(m*n*n)的feature cube切分成很多子cube,每个子cube大小为(s*t*t),一共(m/s * n/t * n/t)=q个子立方体,每个可学习的query关注一个子立方体。
5.根据权利要求4所述的服务监管场景下视频表征融合方法,其特征在于:所述步骤二中使用的动态的注意力掩码具体如下:将transformer交叉注意力层的query输出到一个线性层中,将query的隐状态维度从h映射到3,分别表示当前query关注的子立方体在featurecube的...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。