背景音乐的插入时间点确定方法、装置、设备和存储介质制造方法及图纸

技术编号:33502668 阅读:18 留言:0更新日期:2022-05-19 01:12
本申请公开了一种背景音乐的插入时间点确定方法、装置、设备和存储介质,可应用于计算机技术中的背景音乐插入、人工智能以及车载等场景。在本申请实施例提供中,结合了目标视频的音频特征和图像特征来确定目标视频的视频特征,该视频特征能够较为准确地表示目标视频的内容。基于注意力机制对视频特征进行编码,得到多个目标参数。基于多个时间点的目标参数,从多个时间点中确定出候选时间点,该候选时间点也即是可以在目标视频中插入背景音乐的时间点。在上述确定候选时间点的过程中,由于结合了注意力机制,使得确定出的候选时间点较为准确。同时在插入背景音乐时,在保证准确性的前提下,提高了在视频中插入背景音乐的效率。率。率。

【技术实现步骤摘要】
背景音乐的插入时间点确定方法、装置、设备和存储介质


[0001]本申请涉及计算机
,特别涉及一种背景音乐的插入时间点确定方法、装置、设备和存储介质。

技术介绍

[0002]随着互联网技术的发展,观看视频已成为常见的一种娱乐形式。在视频制作过程中,往往会在视频中插入背景音乐,通过背景音乐来烘托视频的氛围,从而提高视频的观看效果。
[0003]相关技术中,背景音乐的插入时间点是通过人工选择的方法实现的,即在观看视频的过程中,由视频制作人员根据视频的内容来确定在视频中插入背景音乐的时间点。
[0004]但是,采用人工选择的方法需要消耗大量的时间和人力资源,导致在视频中插入背景音乐的效率较低。

技术实现思路

[0005]本申请实施例提供了一种背景音乐的插入时间点确定方法、装置、设备和存储介质,能够提高在视频中插入背景音乐的效率,技术方案如下。
[0006]一方面,提供了一种背景音乐的插入时间点确定方法,所述方法包括:提取目标视频的音频特征以及图像特征;将所述音频特征以及所述图像特征进行融合,得到所述目标视频的视频特征;基于注意力机制对所述目标视频的视频特征进行编码,得到多个目标参数,所述多个目标参数对应于所述目标视频的多个时间点,所述目标参数用于表示在对应时间点插入背景音乐的概率;将所述多个时间点中目标参数符合目标条件的时间点,确定为插入背景音乐的候选时间点。
[0007]一方面,提供了一种背景音乐的插入时间点确定装置,所述装置包括:特征提取模块,用于提取目标视频的音频特征以及图像特征;特征融合模块,用于将所述音频特征以及所述图像特征进行融合,得到所述目标视频的视频特征;编码模块,用于基于注意力机制对所述目标视频的视频特征进行编码,得到多个目标参数,所述多个目标参数对应于所述目标视频的多个时间点,所述目标参数用于表示在对应时间点插入背景音乐的概率;候选时间点确定模块,用于将所述多个时间点中目标参数符合目标条件的时间点,确定为插入背景音乐的候选时间点。
[0008]在一种可能的实施方式中,所述特征提取模块,用于对所述目标视频的多个音频帧进行特征提取,得到所述目标视频的音频特征;对所述目标视频的多个视频帧进行特征提取,得到所述目标视频的图像特征。
[0009]在一种可能的实施方式中,所述特征提取模块,用于对所述多个音频帧的时域信息进行特征提取,得到所述多个音频帧的时域音频特征;对所述多个音频帧的频域信息进行特征提取,得到所述多个音频帧的频域音频特征;基于所述多个音频帧的时域音频特征和频域音频特征,获取所述目标视频的音频特征。
[0010]在一种可能的实施方式中,所述特征提取模块,用于采用多个一维卷积核对所述多个音频帧的时域信息进行特征提取,得到所述多个音频帧的时域音频特征;所述对所述多个音频帧的频域信息进行特征提取,得到所述多个音频帧的频域音频特征包括:采用多个二维卷积核对所述多个音频帧的频域信息进行特征提取,得到所述多个音频帧的频域音频特征。
[0011]在一种可能的实施方式中,所述特征融合模块,用于将所述多个音频帧的时域音频特征和频域音频特征进行融合,得到所述目标视频的初始音频特征;分别对所述初始音频特征进行最大值池化和均值池化,得到所述目标视频的第一池化特征和第二池化特征;将所述第一池化特征以及所述第二池化特征进行融合,得到所述目标视频的音频特征。
[0012]在一种可能的实施方式中,所述视频特征包括多个子特征,所述多个子特征对应于所述目标视频的多个时间点,所述编码模块用于通过时间点确定模型,基于注意力机制对所述多个子特征中每两个子特征进行编码,得到各个所述子特征的目标参数。
[0013]在一种可能的实施方式中,所述编码模块用于对于所述多个子特征中的第一子特征,基于注意力机制确定所述多个子特征中的多个第二子特征对所述第一子特征的多个注意力参数;将所述多个注意力参数进行融合,得到所述第一子特征的目标参数。
[0014]在一种可能的实施方式中,所述编码模块用于对所述第一子特征进行全连接,得到所述第一子特征的嵌入特征;对于所述多个第二子特征中的任一第二子特征,对所述第二子特征进行全连接,得到所述第二子特征的嵌入特征;基于所述第一子特征的嵌入特征和所述第二子特征的嵌入特征,确定所述第一子特征和所述第二子特征之间的相似度参数;基于所述第一子特征以及所述第一子特征和所述第二子特征之间的相似度参数,确定所述第二子特征对所述第一子特征的注意力参数。
[0015]在一种可能的实施方式中,所述装置还包括:训练模块,用于将样本视频输入所述时间点确定模型,通过所述时间点确定模型对所述样本视频进行特征提取,得到所述样本视频的样本音频特征以及样本图像特征;通过所述时间点确定模型,将所述样本音频特征以及所述样本图像特征进行融合,得到所述样本视频的视频特征;通过所述时间点确定模型,基于注意力机制对所述样本视频的视频特征进行编码,得到多个样本参数,所述多个样本参数对应于所述样本视频的多个时间点,所述样本参数用于表示在对应时间点插入背景音乐的概率;基于所述样本视频的多个时间点的标签与所述多个样本参数之间的差异信息,对所述时间点确定模型进行训练,所述标签用于表示所述样本视频中背景音乐的出现时间。
[0016]在一种可能的实施方式中,所述装置还包括:音频分离模块,用于通过所述时间点确定模型对所述样本视频进行音频分离,得到所述样本视频的原始音频和背景音乐;所述训练模块还用于通过所述时间点确定模型,对所述样本视频的所述原始音频和多个样本视频帧进行特征提取,得到所述样本视频的样本音频特征以及样本图像特征。
[0017]在一种可能的实施方式中,所述音频分离模块用于通过所述时间点确定模型对所述样本视频的多个样本音频帧的样本频域信息进行特征提取,得到所述样本视频的第一音频特征;通过所述时间点确定模型,采用多种尺度对所述第一音频特征进行池化,得到所述样本视频的多个第二音频特征;通过所述时间点确定模型,将所述多个第二音频特征进行融合,得到所述样本视频的音频分离特征;通过所述时间点确定模型,基于所述音频分离特征对所述样本频域信息进行分离,得到所述样本视频的原始音频和背景音乐。
[0018]在一种可能的实施方式中,所述音频分离模块用于对所述多个第二音频特征进行卷积,得到所述样本视频的多个第三音频特征;对所述多个第三音频特征进行上采样,得到所述样本视频的多个第四音频特征,所述多个第四音频特征的尺寸均与所述第一音频特征相同;将所述多个第四音频特征与所述第一音频特征进行融合,得到所述样本视频的音频分离特征。
[0019]在一种可能的实施方式中,所述音频分离模块用于基于所述音频分离特征,确定所述样本频域信息的边界信息,所述边界信息用于表示所述样本频域信息中原始音频和背景音乐之间的边界;基于所述边界信息对所述样本频域信息进行处理,得到所述样本视频的原始音频和背景音乐。
[0020]在一种可能的实施方式中,所述装置还包括:标签添加模块,用于基于所述样本视频的背景音乐在所本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种背景音乐的插入时间点确定方法,其特征在于,所述方法包括:提取目标视频的音频特征以及图像特征;将所述音频特征以及所述图像特征进行融合,得到所述目标视频的视频特征;基于注意力机制对所述目标视频的视频特征进行编码,得到多个目标参数,所述多个目标参数对应于所述目标视频的多个时间点,所述目标参数用于表示在对应时间点插入背景音乐的概率;将所述多个时间点中目标参数符合目标条件的时间点,确定为插入背景音乐的候选时间点。2.根据权利要求1所述的方法,其特征在于,所述提取目标视频的音频特征以及图像特征包括:对所述目标视频的多个音频帧进行特征提取,得到所述目标视频的音频特征;对所述目标视频的多个视频帧进行特征提取,得到所述目标视频的图像特征。3.根据权利要求2所述的方法,其特征在于,所述对所述目标视频的多个音频帧进行特征提取,得到所述目标视频的音频特征包括:对所述多个音频帧的时域信息进行特征提取,得到所述多个音频帧的时域音频特征;对所述多个音频帧的频域信息进行特征提取,得到所述多个音频帧的频域音频特征;基于所述多个音频帧的时域音频特征和频域音频特征,获取所述目标视频的音频特征。4.根据权利要求3所述的方法,其特征在于,所述对所述多个音频帧的时域信息进行特征提取,得到所述多个音频帧的时域音频特征包括:采用多个一维卷积核对所述多个音频帧的时域信息进行特征提取,得到所述多个音频帧的时域音频特征;所述对所述多个音频帧的频域信息进行特征提取,得到所述多个音频帧的频域音频特征包括:采用多个二维卷积核对所述多个音频帧的频域信息进行特征提取,得到所述多个音频帧的频域音频特征。5.根据权利要求3所述的方法,其特征在于,所述基于所述多个音频帧的时域音频特征和频域音频特征,获取所述目标视频的音频特征包括:将所述多个音频帧的时域音频特征和频域音频特征进行融合,得到所述目标视频的初始音频特征;分别对所述初始音频特征进行最大值池化和均值池化,得到所述目标视频的第一池化特征和第二池化特征;将所述第一池化特征以及所述第二池化特征进行融合,得到所述目标视频的音频特征。6.根据权利要求1所述的方法,其特征在于,所述视频特征包括多个子特征,所述多个子特征对应于所述目标视频的多个时间点,所述基于注意力机制对所述目标视频的视频特征进行编码,得到多个目标参数包括:通过时间点确定模型,基于注意力机制对所述多个子特征中每两个子特征进行编码,得到各个所述子特征的目标参数。
7.根据权利要求6所述的方法,其特征在于,所述基于注意力机制对所述多个子特征中每两个子特征进行编码,得到各个所述子特征的目标参数包括:对于所述多个子特征中的第一子特征,基于注意力机制确定所述多个子特征中的多个第二子特征对所述第一子特征的多个注意力参数;将所述多个注意力参数进行融合,得到所述第一子特征的目标参数。8.根据权利要求7所述的方法,其特征在于,所述基于注意力机制确定所述多个子特征中的多个第二子特征对所述第一子特征的多个注意力参数包括:对所述第一子特征进行全连接,得到所述第一子特征的嵌入特征;对于所述多个第二子特征中的任一第二子特征,对所述第二子特征进行全连接,得到所述第二子特征的嵌入特征;基于所述第一子特征的嵌入特征和所述第二子特征的嵌入特征,确定所述第一子特征和所述第二子特征之间的相似度参数;基于所述第一子特征以及所述第一子特征和所述第二子特征之间的相似度参数,确定所述第二子特征对所述第一子特征的注意力参数。9.根据权利要求6

8任一项所述的方法,其特征在于,所述方法还包括:将样本视频输入所述时间点确定模型,通过所述时间点确定模型对所述样本视频进行特征提取,得到所述样本视频的样本音频特征以及样本图像特征;通过所述时间点确定模型,将所述样本音频特征以及所述样本图像特征进行融合,得到所述样本视频的视频特征;通过所述时间点确定模型,基于注意力机制对所述样本视频的视频特征进行编码,得到多个样本参数,所述多个样本参数对应于所述样本视频的多个时间点,所述样本参数用于表示在对应时间点插入背景音乐的概率;基于所述样本视频的多个时间点的标签与所述多个样本参数之间的差...

【专利技术属性】
技术研发人员:冯鑫
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1