背景音乐的插入时间点确定方法、装置、设备和存储介质制造方法及图纸

技术编号：33502668 阅读：18 留言：0更新日期：2022-05-19 01:12

本申请公开了一种背景音乐的插入时间点确定方法、装置、设备和存储介质，可应用于计算机技术中的背景音乐插入、人工智能以及车载等场景。在本申请实施例提供中，结合了目标视频的音频特征和图像特征来确定目标视频的视频特征，该视频特征能够较为准确地表示目标视频的内容。基于注意力机制对视频特征进行编码，得到多个目标参数。基于多个时间点的目标参数，从多个时间点中确定出候选时间点，该候选时间点也即是可以在目标视频中插入背景音乐的时间点。在上述确定候选时间点的过程中，由于结合了注意力机制，使得确定出的候选时间点较为准确。同时在插入背景音乐时，在保证准确性的前提下，提高了在视频中插入背景音乐的效率。率。率。

全部详细技术资料下载

【技术实现步骤摘要】
背景音乐的插入时间点确定方法、装置、设备和存储介质

[0001]本申请涉及计算机
，特别涉及一种背景音乐的插入时间点确定方法、装置、设备和存储介质。

技术介绍

[0002]随着互联网技术的发展，观看视频已成为常见的一种娱乐形式。在视频制作过程中，往往会在视频中插入背景音乐，通过背景音乐来烘托视频的氛围，从而提高视频的观看效果。
[0003]相关技术中，背景音乐的插入时间点是通过人工选择的方法实现的，即在观看视频的过程中，由视频制作人员根据视频的内容来确定在视频中插入背景音乐的时间点。
[0004]但是，采用人工选择的方法需要消耗大量的时间和人力资源，导致在视频中插入背景音乐的效率较低。

技术实现思路

[0005]本申请实施例提供了一种背景音乐的插入时间点确定方法、装置、设备和存储介质，能够提高在视频中插入背景音乐的效率，技术方案如下。
[0006]一方面，提供了一种背景音乐的插入时间点确定方法，所述方法包括：提取目标视频的音频特征以及图像特征；将所述音频特征以及所述图像特征进行融合，得到所述目标视频的视频特征；基于注意力机制对所述目标视频的视频特征进行编码，得到多个目标参数，所述多个目标参数对应于所述目标视频的多个时间点，所述目标参数用于表示在对应时间点插入背景音乐的概率；将所述多个时间点中目标参数符合目标条件的时间点，确定为插入背景音乐的候选时间点。
[0007]一方面，提供了一种背景音乐的插入时间点确定装置，所述装置包括：特征提取模块，用于提取目标视频的音频特...

【技术保护点】

【技术特征摘要】
1.一种背景音乐的插入时间点确定方法，其特征在于，所述方法包括：提取目标视频的音频特征以及图像特征；将所述音频特征以及所述图像特征进行融合，得到所述目标视频的视频特征；基于注意力机制对所述目标视频的视频特征进行编码，得到多个目标参数，所述多个目标参数对应于所述目标视频的多个时间点，所述目标参数用于表示在对应时间点插入背景音乐的概率；将所述多个时间点中目标参数符合目标条件的时间点，确定为插入背景音乐的候选时间点。2.根据权利要求1所述的方法，其特征在于，所述提取目标视频的音频特征以及图像特征包括：对所述目标视频的多个音频帧进行特征提取，得到所述目标视频的音频特征；对所述目标视频的多个视频帧进行特征提取，得到所述目标视频的图像特征。3.根据权利要求2所述的方法，其特征在于，所述对所述目标视频的多个音频帧进行特征提取，得到所述目标视频的音频特征包括：对所述多个音频帧的时域信息进行特征提取，得到所述多个音频帧的时域音频特征；对所述多个音频帧的频域信息进行特征提取，得到所述多个音频帧的频域音频特征；基于所述多个音频帧的时域音频特征和频域音频特征，获取所述目标视频的音频特征。4.根据权利要求3所述的方法，其特征在于，所述对所述多个音频帧的时域信息进行特征提取，得到所述多个音频帧的时域音频特征包括：采用多个一维卷积核对所述多个音频帧的时域信息进行特征提取，得到所述多个音频帧的时域音频特征；所述对所述多个音频帧的频域信息进行特征提取，得到所述多个音频帧的频域音频特征包括：采用多个二维卷积核对所述多个音频帧的频域信息进行特征提取，得到所述多个音频帧的频域音频特征。5.根据权利要求3所述的方法，其特征在于，所述基于所述多个音频帧的时域音频特征和频域音频特征，获取所述目标视频的音频特征包括：将所述多个音频帧的时域音频特征和频域音频特征进行融合，得到所述目标视频的初始音频特征；分别对所述初始音频特征进行最大值池化和均值池化，得到所述目标视频的第一池化特征和第二池化特征；将所述第一池化特征以及所述第二池化特征进行融合，得到所述目标视频的音频特征。6.根据权利要求1所述的方法，其特征在于，所述视频特征包括多个子特征，所述多个子特征对应于所述目标视频的多个时间点，所述基于注意力机制对所述目标视频的视频特征进行编码，得到多个目标参数包括：通过时间点确定模型，基于注意力机制对所述多个子特征中每两个子特征进行编码，得到各个所述子特征的目标参数。
7.根据权利要求6所述的方法，其特征在于，所述基于注意力机制对所述多个子特征中每两个子特征进行编码，得到各个所述子特征的目标参数包括：对于所述多个子特征中的第一子特征，基于注意力机制确定所述多个子特征中的多个第二子特征对所述第一子特征的多个注意力参数；将所述多个注意力参数进行融合，得到所述第一子特征的目标参数。8.根据权利要求7所述的方法，其特征在于，所述基于注意力机制确定所述多个子特征中的多个第二子特征对所述第一子特征的多个注意力参数包括：对所述第一子特征进行全连接，得到所述第一子特征的嵌入特征；对于所述多个第二子特征中的任一第二子特征，对所述第二子特征进行全连接，得到所述第二子特征的嵌入特征；基于所述第一子特征的嵌入特征和所述第二子特征的嵌入特征，确定所述第一子特征和所述第二子特征之间的相似度参数；基于所述第一子特征以及所述第一子特征和所述第二子特征之间的相似度参数，确定所述第二子特征对所述第一子特征的注意力参数。9.根据权利要求6
‑
8任一项所述的方法，其特征在于，所述方法还包括：将样本视频输入所述时间点确定模型，通过所述时间点确定模型对所述样本视频进行特征提取，得到所述样本视频的样本音频特征以及样本图像特征；通过所述时间点确定模型，将所述样本音频特征以及所述样本图像特征进行融合，得到所述样本视频的视频特征；通过所述时间点确定模型，基于注意力机制对所述样本视频的视频特征进行编码，得到多个样本参数，所述多个样本参数对应于所述样本视频的多个时间点，所述样本参数用于表示在对应时间点插入背景音乐的概率；基于所述样本视频的多个时间点的标签与所述多个样本参数之间的差...

【专利技术属性】
技术研发人员：冯鑫，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人