视频配乐方法及装置、电子设备、存储介质制造方法及图纸

技术编号：30531707 阅读：12 留言：0更新日期：2021-10-30 12:38

本申请的实施例揭示了一种视频配乐方法及装置，该方法包括：提取待配乐的视频对应的视频时序特征，所述视频时序特征中含有所述视频的时序信息和图像语义信息；对所述视频时序特征进行特征嵌入处理，得到所述视频的视频嵌入特征，其中，所述视频嵌入特征指向的特征空间与曲库中候选音乐的音频嵌入特征指向的特征空间相同，所述音频嵌入特征中含有对应候选音乐的时序信息和音频语义信息；根据所述视频嵌入特征和所述曲库中候选音乐的音频嵌入特征，确定所述曲库中的候选音乐与所述视频之间的匹配程度，基于所述匹配程度在所述曲库中选取目标音乐；根据所述目标音乐和所述视频生成配乐视频。本申请的实施例能够提升自动配乐的准确性。准确性。准确性。

全部详细技术资料下载

【技术实现步骤摘要】
视频配乐方法及装置、电子设备、存储介质

[0001]本申请涉及视频处理
，具体涉及一种视频配乐方法及装置、电子设备、计算机可读存储介质。

技术介绍

[0002]在现有的自动视频配乐方案中，需要针对待配乐的视频提取视频标签，通过视频标签将待配乐的视频归为某个视频类别，并通过视频类别映射至对应的音乐类型，从与该音乐类型相匹配的曲库中随机挑选一首音乐对视频进行配乐，得到最终的配乐视频。在与视频类别所映射音乐类型相匹配的曲库中，所有的音乐均具有同一音乐类型标签。
[0003]基于标签的匹配只能保证待配乐的视频和音乐在大体类别上保持一致，但在更细粒度上可能存在差异，导致最终选取的音乐与待配乐的视频之间的匹配程度不高。

技术实现思路

[0004]为解决上述技术问题，本申请的实施例分别提供了一种视频配乐方法及装置、电子设备、计算机可读存储介质。
[0005]根据本申请实施例的一个方面，提供了一种视频配乐方法，包括：提取待配乐的视频对应的视频时序特征，所述视频时序特征中含有所述视频的时序信息和图像语义信息；对所述视频时序特征进行特征嵌入处理，得到所述视频的视频嵌入特征，其中，所述视频嵌入特征指向的特征空间与曲库中候选音乐的音频嵌入特征指向的特征空间相同，所述音频嵌入特征中含有对应候选音乐的时序信息和音频语义信息；根据所述视频嵌入特征和所述曲库中候选音乐的音频嵌入特征，确定所述曲库中的候选音乐与所述视频之间的匹配程度，基于所述匹配程度在所述曲库中选取目标音乐；根据所述目标音乐和所述视频生成配乐视频...

【技术保护点】

【技术特征摘要】
1.一种视频配乐方法，其特征在于，包括：提取待配乐的视频对应的视频时序特征，所述视频时序特征中含有所述视频的时序信息和图像语义信息；对所述视频时序特征进行特征嵌入处理，得到所述视频的视频嵌入特征，其中，所述视频嵌入特征指向的特征空间与曲库中候选音乐的音频嵌入特征指向的特征空间相同，所述音频嵌入特征中含有对应候选音乐的时序信息和音频语义信息；根据所述视频嵌入特征和所述曲库中候选音乐的音频嵌入特征，确定所述曲库中的候选音乐与所述视频之间的匹配程度，基于所述匹配程度在所述曲库中选取目标音乐；根据所述目标音乐和所述视频生成配乐视频。2.根据权利要求1所述的方法，其特征在于，所述提取待配乐的视频对应的视频时序特征，包括：按照设定频率对所述视频进行图像帧抽取，所述设定频率用于指示在单位时长中抽取图像帧的数量，得到在各个单位时长中抽取的图像帧序列；提取所述图像帧序列对应的图像特征；按照时间先后顺序对所有单位时长对应的图像特征进行组合，得到所述视频的视频时序特征。3.根据权利要求2所述的方法，其特征在于，所述提取所述图像帧序列对应的图像特征，包括：将由所述图像帧序列构形成的图像张量输入图像特征提取模型中，所述图像特征提取模型用于提取所述图像张量中含有的图像视觉信息和帧间运动信息；获取所述图像特征提取模型中最后一个卷积网络层输出的特征图矩阵，并对所述特征图矩阵进行全局平均池化处理，以得到所述图像张量对应的图像特征。4.根据权利要求3所述的方法，其特征在于，所述图像特征提取模型包括非局部神经网络模型，所述非局部神经网络模型是根据指定视频数据集进行有监督的预训练处理得到的，所述指定视频数据集用于进行人体动作分类。5.根据权利要求1所述的方法，其特征在于，所述对所述视频时序特征进行特征嵌入处理，包括：调用特征嵌入网络模型，将所述视频时序特征输入所述特征嵌入网络模型中，以通过所述特征嵌入网络模型对所述视频时序特征进行特征嵌入处理，所述特征嵌入网络模型中包含有堆叠的多个一维卷积网络层。6.根据权利要求5所述的方法，其特征在于，所述方法还包括：获取音视频数据集，所述音视频数据集中包括多个已配乐视频；将所述已配乐视频中包含的原始视频与所述原始视频对应的音乐作为正样本对，以及将所述已配乐视频中包含的原始视频与其它已配乐视频中包含的音乐作为负样本对，调用待训练的特征嵌入网络模型提取所述正样本对的特征对信息以及所述负样本对的特征对信息；根据所述正样本对的特征对信息计算所述正样本对的第一特征距离值，以及根据所述负样本对的特征对信息计算所负样本对的第二特征距离值；若所述第一特征距离值与预设特征距离值之和大于或者等于所述第二特征距离，则对
所述特征嵌入网络模型进行模型参数的更新。7.根据权利要求1所述的方法，其特征在于，所述方法还包括：针对所述曲库中的候选音乐提取音频时序特征，所述音频时序特征中含有对应候选音乐的时序信息和音频语义信息；对提取到的音频时序特征进行特征嵌入处理，以得到所述曲库中候选音乐的音频嵌入特征。8.根据权利要求7所述的方法，其特征在于，所述针对所述曲库中的候选音乐提取音频时序特征，包括：针对所述候选音乐的音频编码数据进行数据预处理，得到所述候选音乐对应的预处理音频；按...

【专利技术属性】
技术研发人员：田思达，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人