多媒体数据处理方法、装置、设备及存储介质制造方法及图纸

技术编号：30561371 阅读：40 留言：0更新日期：2021-10-30 13:44

本申请实施例公开了一种多媒体数据处理方法、装置、设备及存储介质，涉及人工智能相关的机器学习技术，其中，方法包括：获取与目标视频数据匹配的目标音频数据；对所述目标音频数据进行音频特征提取，得到所述目标音频数据的音频特征信息；根据所述目标音频数据的音频特征信息，对所述目标音频数据进行副歌识别，得到所述目标音频数据的副歌片段；从所述目标视频数据中提取出关键视频片段，将所述关键视频片段与所述目标音频数据的副歌片段进行融合，得到包括所述关键视频片段和所述目标音频数据的副歌片段的多媒体数据。通过本申请能够有效提高副歌片段的获取效率以及准确度，进而，提高多媒体数据的获取效率。提高多媒体数据的获取效率。提高多媒体数据的获取效率。

全部详细技术资料下载

【技术实现步骤摘要】
多媒体数据处理方法、装置、设备及存储介质

[0001]本申请涉及人工智能中的机器学习
，尤其涉及一种多媒体数据处理方法、装置、设备及存储介质。

技术介绍

[0002]随着互联网技术的发展，人们可以随时随地进行多媒体数据（如短视频）的录制与发布，并且还可以观看其他人发布的多媒体数据。通常用户在创作多媒体数据时，需要选择一个与视频数据的主题相符合的背景音乐，然后，将背景音乐与视频数据进行融合，得到多媒体数据。背景音乐可以用于强化多媒体数据的主题，例如，该多媒体数据为一个舞蹈视频数据，通过背景音乐可以增强舞蹈的节奏感，进而使得观看者能通过背景音乐来更加直观的理解用户上传的多媒体数据的主题。由于音频数据的副歌片段具有较强的节奏感以及概括性，因此，越来越多的用户选择音频数据的副歌片段作为背景音乐。目前，主要是通过手动方式剪辑出音频数据的副歌片段，需要用户多次对音频数据进行剪辑处理，才能得到音频数据的副歌片段，导致音频数据的副歌片段的获取效率比较低，进而使多媒体数据的获取效率比较低。同时，受人耳主观感受的影响，不同用户对音频数据的副歌片段的理解具有一定的偏差，导致获取到的副歌片段的准确度比较低。

技术实现思路

[0003]本申请实施例所要解决的技术问题在于，提供一种多媒体数据处理方法、装置、设备及存储介质，能够有效提高副歌片段的获取效率以及准确度，进而，提高多媒体数据的获取效率。
[0004]本申请实施例一方面提供一种多媒体数据处理方法，包括：获取与目标视频数据匹配的目标音频数据；对所述目标音频数据...

【技术保护点】

【技术特征摘要】
1.一种多媒体数据处理方法，其特征在于，包括：获取与目标视频数据匹配的目标音频数据；对所述目标音频数据进行音频特征提取，得到所述目标音频数据的音频特征信息；根据所述目标音频数据的音频特征信息，对所述目标音频数据进行副歌识别，得到所述目标音频数据的副歌片段；从所述目标视频数据中提取出关键视频片段，将所述关键视频片段与所述目标音频数据的副歌片段进行融合，得到包括所述关键视频片段和所述目标音频数据的副歌片段的多媒体数据。2.如权利要求1所述的方法，其特征在于，所述对所述目标音频数据进行音频特征提取，得到所述目标音频数据的音频特征信息，包括：对所述目标音频数据进行分帧处理，得到多帧音频数据；将所述多帧音频数据进行频域变换，得到所述多帧音频数据中各帧音频数据的频域信息；对所述多帧音频数据中各帧音频数据的频域信息进行音频特征提取，得到所述各帧音频数据的音频特征信息；将所述各帧音频数据的音频特征信息确定为所述目标音频数据的音频特征信息。3.如权利要求2所述的方法，其特征在于，所述对所述多帧音频数据中各帧音频数据的频域信息进行音频特征提取，得到所述各帧音频数据的音频特征信息，包括：根据所述多帧音频数据中各帧音频数据的频域信息，确定所述各帧音频数据的能量信息；对所述各帧音频数据的能量信息进行过滤处理，得到所述各帧音频数据的音频特征信息。4.如权利要求3所述的方法，其特征在于，所述各帧音频数据的音频特征信息包括所述各帧音频数据的能量参数与频率参数，所述根据所述目标音频数据的音频特征信息，对所述目标音频数据进行副歌识别，得到所述目标音频数据的副歌片段，包括：从所述多帧音频数据中，确定出频率参数大于频率阈值，且能量参数大于能量阈值的多个目标音频帧；确定所述多个目标音频帧中的目标音频帧之间在所述目标音频数据中的位置关系；根据所述多个目标音频帧中具有连续相邻位置关系的目标音频帧，生成所述目标音频数据的副歌片段。5.如权利要求2或3所述的方法，其特征在于，所述根据所述目标音频数据的音频特征信息，对所述目标音频数据进行副歌识别，得到所述目标音频数据的副歌片段，包括：调用副歌识别模型的编码层对所述各帧音频数据的音频特征信息进行编码，得到所述各帧音频数据的编码值；调用所述副歌识别模型的置信度识别层对所述各帧音频数据的编码值进行识别，得到所述各帧音频数据属于副歌片段中的音频帧的置信度；调用所述副歌识别模型的副歌识别层根据所述各帧音频数据所属的置信度，从所述多帧音频数据中确定出所述目标音频数据的副歌片段。6.如权利要求5所述的方法，其特征在于，所述调用副歌识别模型的编码层对所述各帧
音频数据的音频特征信息进行编码，得到所述各帧音频数据的编码值，包括：调用副歌识别模型的编码层根据所述各帧音频数据的音频特征信息，生成所述各帧音频数据的音频特征向量；根据所述各帧音频数据的音频特征向量，确定所述各帧音频数据属于副歌片段中的音频帧的候选置信度；对所述候选置信度进行平滑处理，得到所述各帧音频数据属于副歌片段中的音频帧的置信度。7.如权利要求6所述的方法，其特征在于，所述根据所述各帧音频数据的音频特征向量，确定所述各帧音频数据属于副歌片段中的音频帧的候选置信度，包括：将所述音频特征向量之间的内积，确定为所述各帧音频数据的音频权重；根据所述音频权重与所述音频特征向量之间的点乘，得到所述各帧音频数据属于副歌片段中的音频帧的候选置信度。8.如权利要求6所述的方法，其特征在于，所述对所述候选置信度进行平滑处理，得到所述各帧音频数据属于副歌片段中的音频帧的置信度，包括：获取所述多帧音...

【专利技术属性】
技术研发人员：冯鑫，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人