多媒体数据处理方法、装置、设备及存储介质制造方法及图纸

技术编号:30561371 阅读:40 留言:0更新日期:2021-10-30 13:44
本申请实施例公开了一种多媒体数据处理方法、装置、设备及存储介质,涉及人工智能相关的机器学习技术,其中,方法包括:获取与目标视频数据匹配的目标音频数据;对所述目标音频数据进行音频特征提取,得到所述目标音频数据的音频特征信息;根据所述目标音频数据的音频特征信息,对所述目标音频数据进行副歌识别,得到所述目标音频数据的副歌片段;从所述目标视频数据中提取出关键视频片段,将所述关键视频片段与所述目标音频数据的副歌片段进行融合,得到包括所述关键视频片段和所述目标音频数据的副歌片段的多媒体数据。通过本申请能够有效提高副歌片段的获取效率以及准确度,进而,提高多媒体数据的获取效率。提高多媒体数据的获取效率。提高多媒体数据的获取效率。

【技术实现步骤摘要】
多媒体数据处理方法、装置、设备及存储介质


[0001]本申请涉及人工智能中的机器学习
,尤其涉及一种多媒体数据处理方法、装置、设备及存储介质。

技术介绍

[0002]随着互联网技术的发展,人们可以随时随地进行多媒体数据(如短视频)的录制与发布,并且还可以观看其他人发布的多媒体数据。通常用户在创作多媒体数据时,需要选择一个与视频数据的主题相符合的背景音乐,然后,将背景音乐与视频数据进行融合,得到多媒体数据。背景音乐可以用于强化多媒体数据的主题,例如,该多媒体数据为一个舞蹈视频数据,通过背景音乐可以增强舞蹈的节奏感,进而使得观看者能通过背景音乐来更加直观的理解用户上传的多媒体数据的主题。由于音频数据的副歌片段具有较强的节奏感以及概括性,因此,越来越多的用户选择音频数据的副歌片段作为背景音乐。目前,主要是通过手动方式剪辑出音频数据的副歌片段,需要用户多次对音频数据进行剪辑处理,才能得到音频数据的副歌片段,导致音频数据的副歌片段的获取效率比较低,进而使多媒体数据的获取效率比较低。同时,受人耳主观感受的影响,不同用户对音频数据的副歌片段的理解具有一定的偏差,导致获取到的副歌片段的准确度比较低。

技术实现思路

[0003]本申请实施例所要解决的技术问题在于,提供一种多媒体数据处理方法、装置、设备及存储介质,能够有效提高副歌片段的获取效率以及准确度,进而,提高多媒体数据的获取效率。
[0004]本申请实施例一方面提供一种多媒体数据处理方法,包括:获取与目标视频数据匹配的目标音频数据;对所述目标音频数据进行音频特征提取,得到所述目标音频数据的音频特征信息;根据所述目标音频数据的音频特征信息,对所述目标音频数据进行副歌识别,得到所述目标音频数据的副歌片段;从所述目标视频数据中提取出关键视频片段,将所述关键视频片段与所述目标音频数据的副歌片段进行融合,得到包括所述关键视频片段和所述目标音频数据的副歌片段的多媒体数据。
[0005]本申请实施例一方面提供一种多媒体数据处理装置,包括:获取模块,用于获取与目标视频数据匹配的目标音频数据;提取模块,用于对所述目标音频数据进行音频特征提取,得到所述目标音频数据的音频特征信息;识别模块,用于根据所述目标音频数据的音频特征信息,对所述目标音频数据进行副歌识别,得到所述目标音频数据的副歌片段;
融合模块,用于从所述目标视频数据提取出关键视频片段,对所述关键视频片段与所述目标音频数据的副歌片段进行融合,得到包括所述关键视频片段和所述目标音频数据的副歌片段的多媒体数据。
[0006]本申请一方面提供了一种计算机设备,包括:处理器及存储器;其中,上述存储器用于存储计算机程序,上述处理器用于调用上述计算机程序,以执行如下步骤:获取与目标视频数据匹配的目标音频数据;对所述目标音频数据进行音频特征提取,得到所述目标音频数据的音频特征信息;根据所述目标音频数据的音频特征信息,对所述目标音频数据进行副歌识别,得到所述目标音频数据的副歌片段;从所述目标视频数据中提取出关键视频片段,将所述关键视频片段与所述目标音频数据的副歌片段进行融合,得到包括所述关键视频片段和所述目标音频数据的副歌片段的多媒体数据。
[0007]本申请实施例一方面提供了一种计算机可读存储介质,上述计算机可读存储介质存储有计算机程序,上述计算机程序包括程序指令,上述程序指令当被处理器执行时,以执行如下步骤:获取与目标视频数据匹配的目标音频数据;对所述目标音频数据进行音频特征提取,得到所述目标音频数据的音频特征信息;根据所述目标音频数据的音频特征信息,对所述目标音频数据进行副歌识别,得到所述目标音频数据的副歌片段;从所述目标视频数据中提取出关键视频片段,将所述关键视频片段与所述目标音频数据的副歌片段进行融合,得到包括所述关键视频片段和所述目标音频数据的副歌片段的多媒体数据。
[0008]本申请实施例一方面提供了一种计算机程序产品,包括计算机程序/指令,所述计算机程序/指令被处理器执行时实现上述方法的步骤。
[0009]本申请中,当需要生成目标视频数据的多媒体数据时,计算机设备可以获取与该目标视频数据的匹配的目标音频数据,对目标音频数据进行音频特征提取,得到目标音频数据的音频特征信息,然后,通过目标音频数据的音频特征信息自动识别出目标音频数据的副歌片段,不需要人工参数与,提高获取目标音频数据的副歌片段的效率和准确度。同时,由于目标音频数据的音频特征信息用于反映目标音频数据的频率参数以及能量参数,即目标音频数据的音频特征信息用于反映目标音频数据的曲谱信息,任一音频数据均包括曲谱信息,可见,本申请中,基于音频特征信息的副歌片段识别方法可适用于多种识别副歌片段的场景,可避免基于歌词的副歌识别方法的准确度比较低的问题(由于部分音频数据不包括歌词)。在获取到目标音频数据的副歌片段后,计算机设备可以提取目标视频数据的关键视频片段,将关键视频片段和目标音频数据的副歌片段进行融合,得到多媒体数据,可以增强多媒体数据的节奏感以及主题。
附图说明
[0010]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0011]图1是本申请提供的一种多媒体数据处理系统的架构示意图;图2是本申请提供的一种多媒体数据处理系统中的各个设备之间进行数据交互的场景示意图;图3是本申请提供的一种多媒体数据处理方法的流程意图;图4是本申请提供的一种获取目标音频数据中的各帧音频数据的音频特征信息的场景示意图;图5是本申请提供的一种获取目标音频数据中的各帧音频数据的音频特征信息的又一场景示意图;图6是本申请提供的一种基于副歌识别模型获取目标音频数据的副歌片段的场景示意图;图7是本申请提供的一种对目标音频数据中的各帧音频数据的候选置信度进行平滑处理的场景示意图;图8是本申请提供的一种多媒体数据处理方法的又一流程意图;图9是本申请实施例提供的一种多媒体数据处理装置的结构示意图;图10是本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
[0012]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0013]在用户创作多媒体数据时,为了强化媒体数据的主题,并增强多媒体数据的节奏感,通常选择音频数据的副歌片段作为视频数据的背景音乐,然后,对背景音乐和视频数据进行融合,得到多媒体数据。如果通过手动方式剪辑出音频数据的副歌片段,需要用户多次对音频数据进行剪辑处理,才能得到音频数据的副歌片段,导致音频数据的副歌片段的获取效率比较低。同时,受人耳主观感受的影响,不同用户对音频数据的副歌片段的理解具有一本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多媒体数据处理方法,其特征在于,包括:获取与目标视频数据匹配的目标音频数据;对所述目标音频数据进行音频特征提取,得到所述目标音频数据的音频特征信息;根据所述目标音频数据的音频特征信息,对所述目标音频数据进行副歌识别,得到所述目标音频数据的副歌片段;从所述目标视频数据中提取出关键视频片段,将所述关键视频片段与所述目标音频数据的副歌片段进行融合,得到包括所述关键视频片段和所述目标音频数据的副歌片段的多媒体数据。2.如权利要求1所述的方法,其特征在于,所述对所述目标音频数据进行音频特征提取,得到所述目标音频数据的音频特征信息,包括:对所述目标音频数据进行分帧处理,得到多帧音频数据;将所述多帧音频数据进行频域变换,得到所述多帧音频数据中各帧音频数据的频域信息;对所述多帧音频数据中各帧音频数据的频域信息进行音频特征提取,得到所述各帧音频数据的音频特征信息;将所述各帧音频数据的音频特征信息确定为所述目标音频数据的音频特征信息。3.如权利要求2所述的方法,其特征在于,所述对所述多帧音频数据中各帧音频数据的频域信息进行音频特征提取,得到所述各帧音频数据的音频特征信息,包括:根据所述多帧音频数据中各帧音频数据的频域信息,确定所述各帧音频数据的能量信息;对所述各帧音频数据的能量信息进行过滤处理,得到所述各帧音频数据的音频特征信息。4.如权利要求3所述的方法,其特征在于,所述各帧音频数据的音频特征信息包括所述各帧音频数据的能量参数与频率参数,所述根据所述目标音频数据的音频特征信息,对所述目标音频数据进行副歌识别,得到所述目标音频数据的副歌片段,包括:从所述多帧音频数据中,确定出频率参数大于频率阈值,且能量参数大于能量阈值的多个目标音频帧;确定所述多个目标音频帧中的目标音频帧之间在所述目标音频数据中的位置关系;根据所述多个目标音频帧中具有连续相邻位置关系的目标音频帧,生成所述目标音频数据的副歌片段。5.如权利要求2或3所述的方法,其特征在于,所述根据所述目标音频数据的音频特征信息,对所述目标音频数据进行副歌识别,得到所述目标音频数据的副歌片段,包括:调用副歌识别模型的编码层对所述各帧音频数据的音频特征信息进行编码,得到所述各帧音频数据的编码值;调用所述副歌识别模型的置信度识别层对所述各帧音频数据的编码值进行识别,得到所述各帧音频数据属于副歌片段中的音频帧的置信度;调用所述副歌识别模型的副歌识别层根据所述各帧音频数据所属的置信度,从所述多帧音频数据中确定出所述目标音频数据的副歌片段。6.如权利要求5所述的方法,其特征在于,所述调用副歌识别模型的编码层对所述各帧
音频数据的音频特征信息进行编码,得到所述各帧音频数据的编码值,包括:调用副歌识别模型的编码层根据所述各帧音频数据的音频特征信息,生成所述各帧音频数据的音频特征向量;根据所述各帧音频数据的音频特征向量,确定所述各帧音频数据属于副歌片段中的音频帧的候选置信度;对所述候选置信度进行平滑处理,得到所述各帧音频数据属于副歌片段中的音频帧的置信度。7.如权利要求6所述的方法,其特征在于,所述根据所述各帧音频数据的音频特征向量,确定所述各帧音频数据属于副歌片段中的音频帧的候选置信度,包括:将所述音频特征向量之间的内积,确定为所述各帧音频数据的音频权重;根据所述音频权重与所述音频特征向量之间的点乘,得到所述各帧音频数据属于副歌片段中的音频帧的候选置信度。8.如权利要求6所述的方法,其特征在于,所述对所述候选置信度进行平滑处理,得到所述各帧音频数据属于副歌片段中的音频帧的置信度,包括:获取所述多帧音...

【专利技术属性】
技术研发人员:冯鑫
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1