基于机器学习的视频识别方法、装置、服务器和存储介质制造方法及图纸

技术编号:36649111 阅读:23 留言:0更新日期:2023-02-18 13:10
本申请实施例公开了一种基于机器学习的视频识别方法、装置、服务器和存储介质;本申请实施例可以获取目标视频;获取目标视频对应的源视频,目标视频由源视频加工创作得到;对目标视频和源视频进行内容对比,得到目标视频的内容类型;当目标视频的内容类型为搞笑内容型时,对目标视频和源视频进行音频识别,确定目标视频的音频类型;当目标视频的音频类型为搞笑配音型时,将目标视频确定为搞笑配音视频,以便为用户推送搞笑配音视频。本申请实施例通过在视频的内容和音频等维度上与源视频对比,来识别目标视频是否是由该源视频加工创作得到的搞笑配音视频。由此,本方案可以准确地从众多视频中识别出搞笑配音视频,提升了视频识别的效率。别的效率。别的效率。

【技术实现步骤摘要】
基于机器学习的视频识别方法、装置、服务器和存储介质


[0001]本申请涉及计算机领域,具体涉及一种基于机器学习的视频识别方法、装置、服务器和存储介质。

技术介绍

[0002]为了起到幽默搞笑的效果,搞笑配音视频的视频作者会从原始视频中截取一段视频,并将该视频片段的原始配乐(Background Music,BGM)替换为其他搞笑的音频,比如替换为视频作者自己的方言配音、搞笑音效、搞笑配乐等。这类由视频作者二次创作的搞笑配音视频具有大量受众。
[0003]在向用户推送这些搞笑配音视频之前,需要预先在海量视频中识别出这类搞笑配音视频,然而,目前视频平台在识别搞笑配音视频时,主要通过人工方式进行人工识别与手动分类。该方式不仅效率低,识别成本高,且准确率难以保障,无法对大量的增量与存量视频进行快速有效的识别,因此,目前的视频识别方法效率低下。

技术实现思路

[0004]本申请实施例提供一种基于机器学习的视频识别方法、装置、服务器和存储介质,可以提升视频识别的效率。
[0005]本申请实施例提供一种基于机器学习的视频识别方法,包括:
[0006]获取目标视频;
[0007]获取所述目标视频对应的源视频,所述目标视频由所述源视频加工创作得到;
[0008]对所述目标视频和所述源视频进行内容对比,得到所述目标视频的内容类型;
[0009]当所述目标视频的内容类型为搞笑内容型时,对所述目标视频和所述源视频进行音频识别,确定所述目标视频的音频类型;
[0010]当所述目标视频的音频类型为搞笑配音型时,将所述目标视频确定为搞笑配音视频,以便为用户推送所述搞笑配音视频。
[0011]本申请实施例还提供一种基于机器学习的视频识别装置,包括:
[0012]获取单元,用于获取目标视频;
[0013]源单元,用于获取目标视频对应的源视频,目标视频由源视频加工创作得到;
[0014]内容单元,用于对目标视频和源视频进行内容对比,得到目标视频的内容类型;
[0015]音频单元,用于当目标视频的内容类型为搞笑内容型时,对目标视频和源视频进行音频识别,确定目标视频的音频类型;
[0016]确定单元,用于当目标视频的音频类型为搞笑配音型时,将目标视频确定为搞笑配音视频,以便为用户推送搞笑配音视频。
[0017]在一些实施例中,所述内容单元,包括:
[0018]内容识别子单元,用于对所述目标视频和所述源视频进行内容识别,得到所述目标视频的内容搞笑概率,以及所述源视频的内容搞笑概率;
[0019]内容类型子单元,用于基于所述目标视频的内容搞笑概率和所述源视频的内容搞笑概率,确定所述目标视频的内容类型。
[0020]在一些实施例中,所述内容类型子单元,用于:
[0021]对所述目标视频的内容搞笑概率和所述源视频的内容搞笑概率进行求差处理,得到内容搞笑概率差;
[0022]当所述内容搞笑概率差大于预设的差阈值,且所述目标视频的内容搞笑概率大于预设的内容搞笑概率阈值时,将所述目标视频的内容类型确定为搞笑内容型。
[0023]在一些实施例中,所述内容识别子单元,包括:
[0024]模型子模块,用于获取内容识别模型;
[0025]内容识别子模块,用于采用所述内容识别模型,对所述目标视频进行内容识别,得到所述目标视频的内容搞笑概率;
[0026]概率子模块,用于采用所述内容识别模型,对所述源视频进行内容识别,得到所述源视频的内容搞笑概率。
[0027]在一些实施例中,所述模型子模块,用于:
[0028]获取预设内容识别模型;
[0029]获取标注了内容类型的训练样本,所述内容类型包括但不限于搞笑内容型和不搞笑内容型,所述训练样本包括但不限于视频的视频片段、视频音频和视频字幕;
[0030]采用所述标注了内容类型的训练样本训练所述预设内容识别模型,直至所述预设内容识别模型收敛,得到内容识别模型。
[0031]在一些实施例中,所述内容识别模型包括特征提取层、特征融合层和输出层,所述特征提取层包括但不限于图像特征提取网络、音频特征提取网络和字幕特征提取网络,所述内容识别子模块,用于:
[0032]获取所述目标视频的视频片段、视频音频和视频字幕;
[0033]通过所述图像特征提取网络提取所述视频片段的图像特征;
[0034]通过所述音频特征提取网络提取所述视频音频的音频特征;
[0035]通过所述字幕特征提取网络提取所述视频字幕的字幕特征;
[0036]通过所述特征融合层对所述图像特征、音频特征和字幕特征进行特征融合处理,得到融合特征;
[0037]采用所述输出层,基于所述融合特征计算所述目标视频的内容搞笑概率。
[0038]在一些实施例中,音频单元,包括:
[0039]语音识别子单元,用于对所述目标视频和所述源视频进行语音识别,确定所述目标视频的音频类型,以及所述源视频的音频类型,所述音频类型包括但不限于非方言型和方言型;
[0040]音频类型子单元,用于当所述目标视频的音频类型为方言型,且所述源视频的音频类型为非方言型时,将所述目标视频的音频类型确定为搞笑配音型。
[0041]在一些实施例中,所述语音识别子单元,用于:
[0042]获取语音识别模型;
[0043]采用所述语音识别模型,对所述目标视频进行搞笑语音识别,得到所述目标视频的语音搞笑概率,并基于所述目标视频的语音搞笑概率确定所述目标视频的音频类型,所
述音频类型包括但不限于非方言型和方言型;
[0044]采用所述语音识别模型,对所述源视频进行搞笑语音识别,得到所述源视频的语音搞笑概率,并基于所述源视频的语音搞笑概率确定所述源视频的音频类型。
[0045]在一些实施例中,所述音频类型包括但不限于搞笑背景音型和不搞笑背景音型,所述音频单元,用于:
[0046]对所述目标视频和所述源视频进行背景音识别,确定所述目标视频的背景音搞笑概率,以及所述源视频的背景音搞笑概率;
[0047]对所述目标视频的背景音搞笑概率和所述源视频的背景音搞笑概率进行求差处理,得到背景音搞笑概率差;
[0048]当所述背景音搞笑概率差大于预设的差阈值,且所述目标视频的背景音搞笑概率大于预设的背景音搞笑阈值时,将所述目标视频的音频类型确定为搞笑配音型。
[0049]在一些实施例中,所述源单元,包括:
[0050]检索特征子单元,用于获取所述目标视频的检索特征,所述检索特征包括但不限于图像特征和字幕特征;
[0051]查找子单元,用于基于所述检索特征,从检索库中查找所述目标视频对应的源视频。
[0052]在一些实施例中,所述检索特征子单元,用于:
[0053]对所述目标视频进行抽帧处理,得到多帧图像片段;
[0054]对于每帧所述图像片段,从所述图像片段中提取本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于机器学习的视频识别方法,其特征在于,包括:获取目标视频;获取所述目标视频对应的源视频,所述目标视频由所述源视频加工创作得到;对所述目标视频和所述源视频进行内容对比,得到所述目标视频的内容类型;当所述目标视频的内容类型为搞笑内容型时,对所述目标视频和所述源视频进行音频识别,确定所述目标视频的音频类型;当所述目标视频的音频类型为搞笑配音型时,将所述目标视频确定为搞笑配音视频,以便为用户推送所述搞笑配音视频。2.如权利要求1所述的基于机器学习的视频识别方法,其特征在于,所述对所述目标视频和所述源视频进行内容对比,得到所述目标视频的内容类型,包括:对所述目标视频和所述源视频进行内容识别,得到所述目标视频的内容搞笑概率,以及所述源视频的内容搞笑概率;基于所述目标视频的内容搞笑概率和所述源视频的内容搞笑概率,确定所述目标视频的内容类型。3.如权利要求2所述的基于机器学习的视频识别方法,其特征在于,所述基于所述目标视频的内容搞笑概率和所述源视频的内容搞笑概率,确定所述目标视频的内容类型,包括:对所述目标视频的内容搞笑概率和所述源视频的内容搞笑概率进行求差处理,得到内容搞笑概率差;当所述内容搞笑概率差大于预设的差阈值,且所述目标视频的内容搞笑概率大于预设的内容搞笑概率阈值时,将所述目标视频的内容类型确定为搞笑内容型。4.如权利要求2所述的基于机器学习的视频识别方法,其特征在于,所述对所述目标视频和所述源视频进行内容识别,得到所述目标视频的内容搞笑概率,以及所述源视频的内容搞笑概率,包括:获取内容识别模型;采用所述内容识别模型,对所述目标视频进行内容识别,得到所述目标视频的内容搞笑概率;采用所述内容识别模型,对所述源视频进行内容识别,得到所述源视频的内容搞笑概率。5.如权利要求4所述的基于机器学习的视频识别方法,其特征在于,所述获取内容识别模型,包括:获取预设内容识别模型;获取标注了内容类型的训练样本,所述内容类型包括但不限于搞笑内容型和不搞笑内容型,所述训练样本包括但不限于视频的视频片段、视频音频和视频字幕;采用所述标注了内容类型的训练样本训练所述预设内容识别模型,直至所述预设内容识别模型收敛,得到内容识别模型。6.如权利要求4所述的基于机器学习的视频识别方法,其特征在于,所述内容识别模型包括特征提取层、特征融合层和输出层,所述特征提取层包括但不限于图像特征提取网络、音频特征提取网络和字幕特征提取网络,所述采用所述内容识别模型,对所述目标视频进行内容识别,得到所述目标视频的内容搞笑概率,包括:
获取所述目标视频的视频片段、视频音频和视频字幕;通过所述图像特征提取网络提取所述视频片段的图像特征;通过所述音频特征提取网络提取所述视频音频的音频特征;通过所述字幕特征提取网络提取所述视频字幕的字幕特征;通过所述特征融合层对所述图像特征、音频特征和字幕特征进行特征融合处理,得到融合特征;采用所述输出层,基于所述融合特征计算所述目标视频的内容搞笑概率。7.如权利要求1所述的基于机器学习的视频识别方法,其特征在于,所述对所述目标视频和所述源视频进行音频识别,确定所述目标视频的音频类型,包括:对所述目标视频和所述源视频进行语音识别,确定所述目标视频的音频类型,以及所述源视频的音频类型,所述音频类型包括但不限于非方言型和方言型;当所述目标视频的音频类型为方言型,且所述源视频的音频类型为非方言型时,将所述目标视频的音频类型确定为搞笑配音型。8.如权利要求7所述的基...

【专利技术属性】
技术研发人员:陈小帅
申请(专利权)人:腾讯科技北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1