【技术实现步骤摘要】
视频标签定义模型构建方法、系统、电子设备及存储介质
本专利技术属于机器学习领域,尤其涉及一种视频标签定义模型构建方法、系统、电子设备及存储介质。
技术介绍
在当下一个多媒体技术广泛应用的时代,图像和视频类型的多媒体素材在日常生活中大量涌现,在一些短视频网站,用户会上传大量自己制作的视频,这些视频都没有标签,因此能够自动的给视频打标签的技术,就显的格外重要。现有的视频标签定义技术包括简单的对特征进行聚合、通过循环神经网络来聚合特征以及通过高维的卷积网络来聚合特征。但现有技术的缺陷在于,简单的使用pooling的方法对特征进行聚合,方式比较简单,没有考虑每一帧视频的前后关系,不能捕获整个视频的特征;使用lstm来进行特征的聚合,不能解决循环神经网络无法并行的缺点,模型的训练以及推断过程都会比较慢;使用高维的卷积神经网络,无法解决长序列带来的影响。此外,现有技术没有考虑视频每一帧图像与音频之间的关系,没有把图像特征与音频特征进行深度的交互,使得模型的表征能力下降,同时,针对类别不均衡问题,没有很好的进行处理,使得模型对出现 ...
【技术保护点】
1.一种视频标签定义模型构建方法,其特征在于,包括:/n视频特征获取步骤,获取用于模型训练的一视频的视频特征,并将所述视频特征进行聚合;/n音频特征获取步骤,获取所述视频的音频特征,并将所述音频特征进行聚合;/n视频表征获取步骤,根据聚合后的所述视频特征和所述音频特征获取所述视频的表征向量;/n定义模型构建步骤,根据所述表征向量,通过反向传播构建一视频标签定义模型。/n
【技术特征摘要】
1.一种视频标签定义模型构建方法,其特征在于,包括:
视频特征获取步骤,获取用于模型训练的一视频的视频特征,并将所述视频特征进行聚合;
音频特征获取步骤,获取所述视频的音频特征,并将所述音频特征进行聚合;
视频表征获取步骤,根据聚合后的所述视频特征和所述音频特征获取所述视频的表征向量;
定义模型构建步骤,根据所述表征向量,通过反向传播构建一视频标签定义模型。
2.如权利要求1所述的视频标签定义模型构建方法,其特征在于,所述视频特征获取步骤包括:对所述视频进行帧级别划分,并将划分后的结果输入至一第一预训练模型获取所述视频特征。
3.如权利要求1所述的视频标签定义模型构建方法,其特征在于,所述音频特征获取步骤包括:提取所述视频中的音频,并将所述音频输入至一第二预训练模型获取所述音频特征。
4.如权利要求1所述的视频标签定义模型构建方法,其特征在于,所述视频表征获取步骤包括:
第一表征生成步骤,对所述视频特征,生成一包括与所述音频特征相似度加权的第一表征;
第二表征生成步骤,对所述音频特征,生成一包括与所述视频特征相似度加权的第二表征;
表征合并生成步骤,根据所述第一表征、所述第二表征生成所述视频的表征向量。
5.如权利要求1所述的视频标签定义模型构建方法,其特征在于,所述定义模型构建步骤包括:使用focalloss计算所述视频标签定义模型的损失。
<...
【专利技术属性】
技术研发人员:张鹏涛,景艳山,
申请(专利权)人:北京明略软件系统有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。