视频的场景分类方法、装置、服务器及存储介质制造方法及图纸

技术编号:30341953 阅读:16 留言:0更新日期:2021-10-12 23:13
本公开关于一种视频的场景分类方法、装置、服务器及存储介质,在传统的视频场景分类方法的基础上,增加音乐特征辅助理解视频的内容,进而基于包含音乐特征的融合特征对视频进行场景分类,由于用户使用的背景音乐一般都和视频强相关,即视频的背景音乐制作视频的用户表达其想法的一种重要的信息。因此,本示例中的视频的场景分类方案对视频的内容理解更加全面,对视频的场景分类更加准确。对视频的场景分类更加准确。对视频的场景分类更加准确。

【技术实现步骤摘要】
视频的场景分类方法、装置、服务器及存储介质


[0001]本公开涉及视频处理领域,尤其涉及一种视频的场景分类方法、装置、服务器及存储介质。

技术介绍

[0002]短视频内容分享与社交类APP目前已成为移动互联网最热门的应用类别。短视频具有社交属性强、创作门槛低、观看时长和场景便捷等特点,更加符合移动互联网时代的碎片化内容消费习惯。
[0003]用户在短视频平台上观看视频时,短视频平台会从短视频平台上的视频中选择视频为用户推荐。一般情况下,短视频平台会基于用户喜欢的视频类别为用户推荐视频。例如,某用户喜欢旅行类的视频,则短视频平台将为该用户推荐旅行相关的视频。
[0004]基于此,短视频平台需要对短视频平台上的视频进行分类。传统技术中,一般利用视频的图像特征对视频进行场景识别,并根据场景识别的结果为视频打上分类标签。在为用户推荐视频时,根据视频的分类标签选择相应类别的视频为用户推荐。
[0005]但是短视频平台上的视频数量庞大,且传统的场景分类方法对视频的内容理解不够准确。因此,短视频平台面临如何对短视频平台暴增的短视频进行高效准确分类的问题。

技术实现思路

[0006]本公开提供一种视频的场景分类方法、装置、服务器及存储介质,以至少解决相关技术中如何高效准确的对视频的场景进行分类的问题。本公开的技术方案如下:
[0007]根据本公开实施例的第一方面,提供一种视频的场景分类方法,包括:
[0008]根据视频的背景音乐获取所述视频的音乐特征;
[0009]获取所述视频的其他特征,其中,所述视频的其他特征包括所述视频的图像特征和/或所述视频的行为特征;
[0010]将所述音乐特征和所述其他特征融合得到所述视频的融合特征;
[0011]利用所述融合特征对所述视频进行场景分类,得到所述视频的场景类别。
[0012]在其中一个实施例中,根据视频的背景音乐获取所述视频的音乐特征包括:
[0013]根据所述背景音乐确定目标用户;
[0014]获取所述目标用户的视频配乐列表;
[0015]提取所述视频配乐列表的特征作为所述视频的第一音乐特征,所述第一音乐特征为一种音乐特征。
[0016]在其中一个实施例中,所述方法还包括:根据所述背景音乐的歌手信息、所述背景音乐的音乐风格、所述背景音乐的语种、所述背景音乐的梅尔倒谱系数MFCC特征中的一种或几种,获取所述视频的第二音乐特征,所述第二音乐特征为一种音乐特征。
[0017]在其中一个实施例中,若所述其他特征包括图像特征,获取所述视频的其他特征包括:
[0018]获取所述视频的目标帧,基于所述目标帧提取所述视频的图像特征。
[0019]在其中一个实施例中,若所述其他特征包括行为特征,获取所述视频的其他特征包括:
[0020]获取所述视频的行为数据,根据所述行为数据获取所述视频的行为特征。
[0021]在其中一个实施例中,利用所述融合特征对所述视频进行场景分类,得到所述视频的场景类别包括:
[0022]将所述融合特征输入多分类模型进行场景分类,得到所述视频的场景类别。
[0023]在其中一个实施例中,在将所述融合特征输入多分类模型进行场景分类,得到所述视频的场景类别之前,所述方法包括:
[0024]获取多个训练视频,并标注所述多个训练视频中每一训练视频的场景类别,构建训练样本;
[0025]利用所述训练样本迭代训练原始的多分类模型,得到所述多分类模型。
[0026]在其中一个实施例中,利用所述训练样本迭代训练原始的多分类模型,得到所述多分类模型包括:
[0027]获取所述训练样本中的训练视频;
[0028]提取所述训练视频的音乐特征和其他特征;
[0029]将所述训练视频的音乐特征和其他特征融合得到所述训练视频的融合特征;
[0030]将所述训练视频的融合特征输入原始的多分类模型进行模型训练;
[0031]迭代执行上述步骤,直至所述原始的多分类模型的各神经网络层收敛。
[0032]根据本公开实施例的第二方面,提供一种视频的场景分类方法,包括:
[0033]获取视频的多种特征,并从多种特征中确定至少两种目标特征;其中,所述视频的多个特征包括:音乐特征、图像特征和行为特征;
[0034]将所述至少两种目标特征进行融合,得到所述视频的融合特征;
[0035]利用所述融合特征对所述视频进行场景分类,得到所述视频的场景类别。
[0036]在其中一个实施例中,获取视频的多种特征,并从多种特征中确定至少两种目标特征包括:
[0037]将所述图像特征选为一种所述目标特征;
[0038]对所述视频的行为数据进行数据分析,根据分析结果从所述音乐特征和所述行为特征中确定另外一种或两种目标特征。
[0039]在其中一个实施例中,对所述视频的行为数据进行数据分析,对所述视频的行为数据进行数据分析,根据分析结果从所述音乐特征和所述行为特征中确定另外一种或两种目标特征包括:
[0040]若所述行为数据中的视频评论数据包含目标词条,或者,所述行为数据中的背景音乐查看数据符合预设条件,则将所述音乐特征选为所述视频的目标特征;
[0041]若所述行为数据中的视频评论数或者视频点赞数大于预设阈值,则将所述行为特征选为所述视频的目标特征。
[0042]在其中一个实施例中,若根据所述分析结果未选择出所述视频的目标特征,所述方法还包括:
[0043]利用配乐评估模型对所述视频的背景音乐与所述视频匹配程度进行评估,得到匹
配度值;
[0044]若所述匹配度值达到预设阈值,则将所述视频的音乐特征确定为所述目标特征。。
[0045]在其中一个实施例中,所述方法还包括:若所述匹配度值未达到预设阈值,则将所述视频的行为乐特征确定为所述目标特征。
[0046]在其中一个实施例中,利用所述融合特征对所述视频进行场景分类,得到所述视频的场景类别包括:
[0047]将所述融合特征输入多分类模型对所述视频进行场景分类,得到所述视频的场景类别。
[0048]在其中一个实施例中,将所述融合特征输入多分类模型对所述视频进行场景分类,得到所述视频的场景类别包括:
[0049]根据所述目标特征从所述多分类模型中的子分类模型中确定目标子分类模型;
[0050]将所述融合特征输入所述目标子分类模型对所述视频进行场景分类,得到所述视频的场景类别。根据本公开实施例的第三方面,提供一种视频的场景分类装置,包括:
[0051]获取模块,被配置为根据视频的背景音乐获取所述视频的第二音乐特征,所述第二音乐特征为一种音乐特征;以及,获取所述视频的其他特征,其中,所述视频的其他特征包括所述视频的图像特征和/或所述视频的行为特征;特征融合模块,被配置为将所述音乐特征和所述其他特征融合得到所述视频的融合特征;
[0本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视频的场景分类方法,其特征在于,包括:根据视频的背景音乐获取所述视频的音乐特征;获取所述视频的其他特征,其中,所述视频的其他特征包括所述视频的图像特征和/或所述视频的行为特征;将所述音乐特征和所述其他特征融合得到所述视频的融合特征;利用所述融合特征对所述视频进行场景分类,得到所述视频的场景类别。2.根据权利要求1所述的方法,其特征在于,根据视频的背景音乐获取所述视频的音乐特征包括:根据所述背景音乐确定目标用户;获取所述目标用户的视频配乐列表;提取所述视频配乐列表的特征作为所述视频的第一音乐特征,所述第一音乐特征为一种音乐特征。3.根据权利要求2所述的方法,其特征在于,所述方法还包括:根据所述背景音乐的歌手信息、所述背景音乐的音乐风格、所述背景音乐的语种、所述背景音乐的梅尔倒谱系数MFCC特征中的一种或几种,获取所述视频的第二音乐特征,所述第二音乐特征为一种音乐特征。4.根据权利要求1所述的方法,其特征在于,若所述其他特征包括图像特征,获取所述视频的其他特征包括:获取所述视频的目标帧,对所述目标帧进行特征提取,得到所述视频的图像特征;若所述其他特征包括行为特征,获取所述视频的其他特征包括:获取所述视频的行为数据,对所述行为数据进行特征提取,得到所述视频的行为特征。5.根据权利要求1-4任一项所述的方法,其特征在于,利用所述融合特征对所述视频进行场景分类,得到所述视频的场景类别包括:将所述融合特征输入多分类模型进行场景分类,得到所述视频的场景类别。6.根据权利要求5所述的方法,其特...

【专利技术属性】
技术研发人员:万祥周亮
申请(专利权)人:北京达佳互联信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1