当前位置: 首页 > 专利查询>中山大学专利>正文

视频处理方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:36649616 阅读:19 留言:0更新日期:2023-02-18 13:11
本申请涉及一种视频处理方法、装置、计算机设备和存储介质。所述方法包括:通过待训练的识别模型,分别提取源域和目标域下的视频样本的深度特征;通过域适应训练器对深度特征进行多时间尺度特征提取,分别得到源域和目标域下的多时间尺度的视频特征;按照视频特征对应的时间节点和时间尺度权重,将源域和目标域下的视频特征分组对齐;时间尺度权重与相应视频特征所表达的信息量正相关;根据同组内的源域和目标域下的视频特征之间的对抗损失,以及源域下的视频样本的预测类别与相应样本标签之间的类别损失,调整识别模型的模型参数并继续进行对抗训练,直至满足训练停止条件时结束训练。采用本方法能够有效提高视频识别的准确率。率。率。

【技术实现步骤摘要】
视频处理方法、装置、计算机设备和存储介质


[0001]本申请涉及计算机视觉
,特别是涉及一种视频处理方法、装置、计算机设备和存储介质。

技术介绍

[0002]随着图像处理技术和人工智能技术的迅速发展,出现了视频识别技术,例如对视频内容中对象的行为等进行检测识别,以实现自动识别视频的类别。
[0003]相关技术中,通常是利用大量标注的样本数据训练网络模型,以通过训练得到的网络模型对标注领域的视频中各静态帧进行分类识别。然而,这种方式仅能适用于对标注领域的视频的分类识别,对于其他领域下的视频,就无法准确识别,导致对其他领域下的视频识别的准确性较低。

技术实现思路

[0004]基于此,有必要针对上述技术问题,提供一种能够有效提高视频识别的准确率的视频处理方法、装置、计算机设备和存储介质。
[0005]一种视频处理方法,所述方法包括:
[0006]通过待训练的识别模型,分别提取源域和目标域下的视频样本的深度特征;所述源域下的视频样本携带样本标签;
[0007]通过域适应训练器对所述深度特征进行多时间尺度特征提取,分别得到源域和目标域下的多时间尺度的视频特征;
[0008]按照所述视频特征对应的时间节点和时间尺度权重,将源域和目标域下的视频特征分组对齐;所述时间尺度权重与相应视频特征所表达的信息量正相关;
[0009]根据同组内的源域和目标域下的视频特征之间的差异,确定对抗损失;
[0010]基于源域下的视频样本的预测类别与相应样本标签之间的差异,确定类别损失;所述预测类别,是基于所述源域下的视频样本的视频特征进行分类得到;
[0011]根据所述对抗损失和所述类别损失,调整所述识别模型的模型参数并继续进行对抗训练,直至满足训练停止条件时结束训练。
[0012]一种视频处理装置,所述装置包括:
[0013]特征提取模块,用于通过待训练的识别模型,分别提取源域和目标域下的视频样本的深度特征;所述源域下的视频样本携带样本标签;
[0014]域适应训练模块,用于通过域适应训练器对所述深度特征进行多时间尺度特征提取,分别得到源域和目标域下的多时间尺度的视频特征;按照所述视频特征对应的时间节点和时间尺度权重,将源域和目标域下的视频特征分组对齐;所述时间尺度权重与相应视频特征所表达的信息量正相关;
[0015]损失确定模块,用于根据同组内的源域和目标域下的视频特征之间的差异,确定对抗损失;基于源域下的视频样本的预测类别与相应样本标签之间的差异,确定类别损失;
所述预测类别,是基于所述源域下的视频样本的视频特征进行分类得到;
[0016]参数调整模块,用于根据所述对抗损失和所述类别损失,调整所述识别模型的模型参数并继续进行对抗训练,直至满足训练停止条件时结束训练。
[0017]在一个实施例中,所述域适应训练模块还用于通过域适应训练器分别对所述深度特征进行多时间尺度卷积处理,得到所述深度特征对应的卷积结果;根据所述深度特征所对应的时间节点权重和相应的卷积结果,分别得到所述源域和所述目标域下的多时间尺度的视频特征。
[0018]在一个实施例中,所述域适应训练器是通过卷积层进行多时间尺度卷积处理;所述域适应训练器还包括时间节点意力层;所述域适应训练模块还用于通过所述时间节点注意力层,根据各时间节点下的深度特征所表达的信息量,分别对所述深度特征所对应的时间节点分配对应的时间节点权重;所述时间节点权重与相应时间节点下的深度特征所表达的信息量正相关。
[0019]在一个实施例中,所述域适应训练模块还用于通过所述域适应训练器的时间尺度注意力层,确定源域和目标域下各时间尺度的视频特征对应的信息熵;所述信息熵表征相应视频特征所表达的信息量;根据所述信息熵,分别对各时间尺度的视频特征分配相应的时间尺度权重。
[0020]在一个实施例中,所述域适应训练模块还用于通过所述域适应训练器,根据各所述视频特征对应的时间节点和时间尺度权重,确定源域和目标域下待对齐的视频特征;将待对齐的视频特征划分为一组,得到多组对齐后的视频特征;每一组内的视频特征包括相同时间尺度的源域和目标域下的视频特征。
[0021]在一个实施例中,所述域适应训练模块还用于确定源域和目标域下的视频特征在相应时间节点下的时间节点权重;从源域和目标域下的视频特征中,确定不同域下时间节点权重和时间尺度权重相匹配的视频特征,作为源域和目标域下待对齐的视频特征。
[0022]在一个实施例中,所述特征提取模块还用于通过待训练的识别模型中的初始特征提取器,分别提取源域和目标域下的视频样本的初始特征;通过所述识别模型中的目标特征提取器,分别对源域和目标域下的视频样本的初始特征进行特提取,得到源域和目标域下的视频样本的深度特征。
[0023]在一个实施例中,所述视频处理装置还包括分类模块,用于通过所述识别模型的分类器,基于所述源域下的视频样本的视频特征进行分类,得到源域下的视频样本的预测类别;所述参数调整模块还用于根据所述对抗损失和所述类别损失,调整所述识别模型中目标特征提取器和分类器的模型参数并继续进行对抗训练,以使所述识别模型在迭代训练的过程中,使同组内的源域和目标域下的视频特征之间的差异减小,直至满足训练停止条件时结束训练。
[0024]在一个实施例中,所述损失确定模块还用于基于目标域下的视频样本的预测类别与源域下的视频样本的预测类别之间的差异,确定交叉熵损失;所述参数调整模块还用于根据所述对抗损失、所述类别损失和所述交叉熵损失,调整所述识别模型的模型参数并继续进行对抗训练,以使所述识别模型在迭代训练的过程中,使同组内的源域和目标域下的视频特征之间的差异减小,直至满足训练停止条件时结束训练。
[0025]在一个实施例中,在所述直至满足训练停止条件时结束训练后,所述视频处理装
置还包括视频识别模块,用于通过已训练的识别模型,对目标域下的待处理视频进行深度特征提取,得到在源域和目标域下对齐的目标视频特征;通过所述识别模型,基于所述目标视频特征对所述待处理视频进行分类识别处理。
[0026]在一个实施例中,所述视频识别模块还用于通过已训练的识别模型,对所述待处理视频进行初步特征提取,得到所述待处理视频的初始特征;基于所述初始特征对应的时间节点和时间尺度权重,对所述初始特征进行深度特征提取,得到在源域和目标域下对齐的目标视频特征。
[0027]在一个实施例中,所述目标视频特征是目标视频行为特征;所述视频识别模块还用于通过所述识别模型,基于所述目标视频行为特征对所述待处理视频中的对象进行行为识别。
[0028]一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现本申请各实施例的视频处理方法中的步骤。
[0029]一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现本申请各实施例的视频处理方法中的步骤。
[0030]一种计算机程序产品或计本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视频处理方法,其特征在于,所述方法包括:通过待训练的识别模型,分别提取源域和目标域下的视频样本的深度特征;所述源域下的视频样本携带样本标签;通过域适应训练器对所述深度特征进行多时间尺度特征提取,分别得到源域和目标域下的多时间尺度的视频特征;按照所述视频特征对应的时间节点和时间尺度权重,将源域和目标域下的视频特征分组对齐;所述时间尺度权重与相应视频特征所表达的信息量正相关;根据同组内的源域和目标域下的视频特征之间的差异,确定对抗损失;基于源域下的视频样本的预测类别与相应样本标签之间的差异,确定类别损失;所述预测类别,是基于所述源域下的视频样本的视频特征进行分类得到;根据所述对抗损失和所述类别损失,调整所述识别模型的模型参数并继续进行对抗训练,直至满足训练停止条件时结束训练。2.根据权利要求1所述的方法,其特征在于,所述通过域适应训练器对所述深度特征进行多时间尺度特征提取,分别得到源域和目标域下的多时间尺度的视频特征,包括:通过域适应训练器分别对所述深度特征进行多时间尺度卷积处理,得到所述深度特征对应的卷积结果;根据所述深度特征所对应的时间节点权重和相应的卷积结果,分别得到所述源域和所述目标域下的多时间尺度的视频特征。3.根据权利要求2所述的方法,其特征在于,所述域适应训练器是通过卷积层进行多时间尺度卷积处理;所述域适应训练器还包括时间节点注意力层;所述方法还包括:通过所述时间节点注意力层,根据各时间节点下的深度特征所表达的信息量,分别对所述深度特征所对应的时间节点分配对应的时间节点权重;所述时间节点权重与相应时间节点下的深度特征所表达的信息量正相关。4.根据权利要求1所述的方法,其特征在于,在所述按照所述视频特征对应的时间节点和时间尺度权重,将源域和目标域下的视频特征分组对齐之前,所述方法还包括:通过所述域适应训练器的时间尺度注意力层,确定源域和目标域下各时间尺度的视频特征对应的信息熵;所述信息熵表征相应视频特征所表达的信息量;根据所述信息熵,分别对各时间尺度的视频特征分配相应的时间尺度权重。5.根据权利要求1所述的方法,其特征在于,所述按照所述视频特征对应的时间节点和时间尺度权重,将源域和目标域下的视频特征分组对齐,包括:通过所述域适应训练器,根据各所述视频特征对应的时间节点和时间尺度权重,确定源域和目标域下待对齐的视频特征;将待对齐的视频特征划分为一组,得到多组对齐后的视频特征;每一组内的视频特征包括相同时间尺度的源域和目标域下的视频特征。6.根据权利要求5所述的方法,其特征在于,所述通过所述域适应训练器,根据各所述视频特征对应的时间节点和时间尺度权重,确定源域和目标域下待对齐的视频特征,包括:确定源域和目标域下的视频特征在相应时间节点下的时间节点权重;从源域和目标域下的视频特征中,确定不同域下时间节点权重和时间尺度权重相匹配
的视频特征,作为源域和目标域下待对齐的视频特征。7.根据权利要求1所述的方法,其特征在于,所述通过待训练的识别模型,分别提取源域和目标域下的视频样本的深度特征,包括:通过待训练的识别模型中的初始特征提取器,分别提取源域和目标域下的视频样本的初始特征;通过所述识别模型中的目标特征提取器,分别对源域和目标域下的视频样本的初始特征进行特提取,得到源域和目标域下的视频样本的深度特征。8.根据权利要求7所述的方法,其特征在于,所述方法还包括:通过所述识别模型的分类器,基于所...

【专利技术属性】
技术研发人员:马锦华高远陈培鹏
申请(专利权)人:中山大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1