视频配乐方法及装置、电子设备、存储介质制造方法及图纸

技术编号:30531707 阅读:12 留言:0更新日期:2021-10-30 12:38
本申请的实施例揭示了一种视频配乐方法及装置,该方法包括:提取待配乐的视频对应的视频时序特征,所述视频时序特征中含有所述视频的时序信息和图像语义信息;对所述视频时序特征进行特征嵌入处理,得到所述视频的视频嵌入特征,其中,所述视频嵌入特征指向的特征空间与曲库中候选音乐的音频嵌入特征指向的特征空间相同,所述音频嵌入特征中含有对应候选音乐的时序信息和音频语义信息;根据所述视频嵌入特征和所述曲库中候选音乐的音频嵌入特征,确定所述曲库中的候选音乐与所述视频之间的匹配程度,基于所述匹配程度在所述曲库中选取目标音乐;根据所述目标音乐和所述视频生成配乐视频。本申请的实施例能够提升自动配乐的准确性。准确性。准确性。

【技术实现步骤摘要】
视频配乐方法及装置、电子设备、存储介质


[0001]本申请涉及视频处理
,具体涉及一种视频配乐方法及装置、电子设备、计算机可读存储介质。

技术介绍

[0002]在现有的自动视频配乐方案中,需要针对待配乐的视频提取视频标签,通过视频标签将待配乐的视频归为某个视频类别,并通过视频类别映射至对应的音乐类型,从与该音乐类型相匹配的曲库中随机挑选一首音乐对视频进行配乐,得到最终的配乐视频。在与视频类别所映射音乐类型相匹配的曲库中,所有的音乐均具有同一音乐类型标签。
[0003]基于标签的匹配只能保证待配乐的视频和音乐在大体类别上保持一致,但在更细粒度上可能存在差异,导致最终选取的音乐与待配乐的视频之间的匹配程度不高。

技术实现思路

[0004]为解决上述技术问题,本申请的实施例分别提供了一种视频配乐方法及装置、电子设备、计算机可读存储介质。
[0005]根据本申请实施例的一个方面,提供了一种视频配乐方法,包括:提取待配乐的视频对应的视频时序特征,所述视频时序特征中含有所述视频的时序信息和图像语义信息;对所述视频时序特征进行特征嵌入处理,得到所述视频的视频嵌入特征,其中,所述视频嵌入特征指向的特征空间与曲库中候选音乐的音频嵌入特征指向的特征空间相同,所述音频嵌入特征中含有对应候选音乐的时序信息和音频语义信息;根据所述视频嵌入特征和所述曲库中候选音乐的音频嵌入特征,确定所述曲库中的候选音乐与所述视频之间的匹配程度,基于所述匹配程度在所述曲库中选取目标音乐;根据所述目标音乐和所述视频生成配乐视频
[0006]根据本申请实施例的一个方面,提供了一种视频配乐装置,包括:视频特征提取模块,配置为提取待配乐的视频对应的视频时序特征,所述视频时序特征中含有所述视频的时序信息和图像语义信息;特征嵌入处理模块,配置为对所述视频时序特征进行特征嵌入处理,得到所述视频的视频嵌入特征,其中,所述视频嵌入特征指向的特征空间与曲库中候选音乐的音频嵌入特征指向的特征空间相同,所述音频嵌入特征中含有对应候选音乐的时序信息和音频语义信息;视频音乐匹配模块,配置为根据所述视频嵌入特征和所述曲库中候选音乐的音频嵌入特征,确定所述曲库中的候选音乐与所述视频之间的匹配程度,基于所述匹配程度在所述曲库中选取目标音乐;配乐视频生成模块,配置为根据所述目标音乐和所述视频生成配乐视频。
[0007]根据本申请实施例的一个方面,提供了一种电子设备,包括处理器及存储器,所述存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时实现如上所述的视频配乐方法。
[0008]根据本申请实施例的一个方面,提供了一种计算机可读存储介质,其上存储有计
算机可读指令,当所述计算机可读指令被计算机的处理器执行时,使计算机执行如上所述的视频配乐方法。
[0009]根据本申请实施例的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各种可选实施例中提供的视频配乐方法。
[0010]在本申请的实施例提供的技术方案中,是基于音视频对应的时序粒度和语义粒度从曲库中选取与待配乐的视频相匹配的目标音乐,并使用目标音乐对待配乐的视频进行配乐,与现有技术中基于视频类别标签和音乐类别标签执行的自动配乐过程相比,本申请基于更细的粒度从曲库中选取与待配乐的视频相匹配的目标音乐,使得最终得到的配乐视频具有更高的准确性。
[0011]应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
[0012]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术者来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
[0013]图1是本申请涉及的一种实施环境的示意图;
[0014]图2是本申请的一实施例示出的视频配乐方法的流程图;
[0015]图3是图2所示实施例中的步骤S110在一个示例性实施例中的流程图;
[0016]图4是本申请的一实施例示出的特征嵌入网络模型的结构示意图;
[0017]图5是本申请的另一实施例示出的视频配乐方法的流程图;
[0018]图6是图2所示实施例中的步骤S150在一个示例性实施例中的流程图;
[0019]图7是本申请的一实施例示出的视频配乐装置的框图;
[0020]图8示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。
具体实施方式
[0021]这里将详细地对示例性实施例执行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
[0022]附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
[0023]附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
[0024]还需要说明的是:在本申请中提及的“多个”是指两个或者两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
[0025]人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
[0026]人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
[0027]机器学习(M本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视频配乐方法,其特征在于,包括:提取待配乐的视频对应的视频时序特征,所述视频时序特征中含有所述视频的时序信息和图像语义信息;对所述视频时序特征进行特征嵌入处理,得到所述视频的视频嵌入特征,其中,所述视频嵌入特征指向的特征空间与曲库中候选音乐的音频嵌入特征指向的特征空间相同,所述音频嵌入特征中含有对应候选音乐的时序信息和音频语义信息;根据所述视频嵌入特征和所述曲库中候选音乐的音频嵌入特征,确定所述曲库中的候选音乐与所述视频之间的匹配程度,基于所述匹配程度在所述曲库中选取目标音乐;根据所述目标音乐和所述视频生成配乐视频。2.根据权利要求1所述的方法,其特征在于,所述提取待配乐的视频对应的视频时序特征,包括:按照设定频率对所述视频进行图像帧抽取,所述设定频率用于指示在单位时长中抽取图像帧的数量,得到在各个单位时长中抽取的图像帧序列;提取所述图像帧序列对应的图像特征;按照时间先后顺序对所有单位时长对应的图像特征进行组合,得到所述视频的视频时序特征。3.根据权利要求2所述的方法,其特征在于,所述提取所述图像帧序列对应的图像特征,包括:将由所述图像帧序列构形成的图像张量输入图像特征提取模型中,所述图像特征提取模型用于提取所述图像张量中含有的图像视觉信息和帧间运动信息;获取所述图像特征提取模型中最后一个卷积网络层输出的特征图矩阵,并对所述特征图矩阵进行全局平均池化处理,以得到所述图像张量对应的图像特征。4.根据权利要求3所述的方法,其特征在于,所述图像特征提取模型包括非局部神经网络模型,所述非局部神经网络模型是根据指定视频数据集进行有监督的预训练处理得到的,所述指定视频数据集用于进行人体动作分类。5.根据权利要求1所述的方法,其特征在于,所述对所述视频时序特征进行特征嵌入处理,包括:调用特征嵌入网络模型,将所述视频时序特征输入所述特征嵌入网络模型中,以通过所述特征嵌入网络模型对所述视频时序特征进行特征嵌入处理,所述特征嵌入网络模型中包含有堆叠的多个一维卷积网络层。6.根据权利要求5所述的方法,其特征在于,所述方法还包括:获取音视频数据集,所述音视频数据集中包括多个已配乐视频;将所述已配乐视频中包含的原始视频与所述原始视频对应的音乐作为正样本对,以及将所述已配乐视频中包含的原始视频与其它已配乐视频中包含的音乐作为负样本对,调用待训练的特征嵌入网络模型提取所述正样本对的特征对信息以及所述负样本对的特征对信息;根据所述正样本对的特征对信息计算所述正样本对的第一特征距离值,以及根据所述负样本对的特征对信息计算所负样本对的第二特征距离值;若所述第一特征距离值与预设特征距离值之和大于或者等于所述第二特征距离,则对
所述特征嵌入网络模型进行模型参数的更新。7.根据权利要求1所述的方法,其特征在于,所述方法还包括:针对所述曲库中的候选音乐提取音频时序特征,所述音频时序特征中含有对应候选音乐的时序信息和音频语义信息;对提取到的音频时序特征进行特征嵌入处理,以得到所述曲库中候选音乐的音频嵌入特征。8.根据权利要求7所述的方法,其特征在于,所述针对所述曲库中的候选音乐提取音频时序特征,包括:针对所述候选音乐的音频编码数据进行数据预处理,得到所述候选音乐对应的预处理音频;按...

【专利技术属性】
技术研发人员:田思达
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1