人声主旋律提取方法和装置、电子设备及存储介质制造方法及图纸

技术编号：39271533 阅读：5 留言：0更新日期：2023-11-07 10:51

本申请实施例提供了一种人声主旋律提取方法和装置、电子设备及存储介质，属于金融科技技术领域。该方法包括：获取谐波拼接数据；将谐波拼接数据输入至预设的原始旋律提取模型进行显著度计算得到音频显著度数据，并对音频显著度数据进行人声判别得到人声判别信息；根据音频显著度数据和人声判别信息对样本音频数据进行旋律提取得到人声主旋律序列；将人声主旋律序列、人声判别信息和预设的主旋律参考序列、判别参考信息进行损失计算得到目标损失数据；根据目标损失数据对原始旋律提取模型进行参数调整得到目标旋律提取模型；将目标拼接数据输入至目标旋律提取模型进行旋律提取得到目标主旋律序列。本申请实施例能够提高人声主旋律的提取效果。主旋律的提取效果。主旋律的提取效果。

全部详细技术资料下载

【技术实现步骤摘要】
人声主旋律提取方法和装置、电子设备及存储介质

[0001]本申请涉及金融科技(Fintech)
，尤其涉及一种人声主旋律提取方法和装置、电子设备及存储介质。

技术介绍

[0002]随着计算机技术的兴起，从音频文件中提取人声主旋律以作为后续人声内容识别以成为语音识别常规的技术手段。例如，在KTV、K歌软件或者哼唱识曲系统中的歌唱打分系统，需要在录制的音频文件中提取出人声主旋律以进行唱歌打分或者识别曲目。
[0003]相关技术中，若音频文件中不存在人声，则人声主旋律的提取效果较差，容易将无人声部分的音频帧提取作为人声主旋律。因此，如何提高人声主旋律的提取效果，成为了亟待解决的技术问题。

技术实现思路

[0004]本申请实施例的主要目的在于提出一种人声主旋律提取方法和装置、电子设备及存储介质，旨在提高人声主旋律的提取效果。
[0005]为实现上述目的，本申请实施例的第一方面提出了一种人声主旋律提取方法，所述方法包括：
[0006]获取样本音频数据；
[0007]对所述样本音频数据进行谐波拼接处理，得到谐波拼接数据；
[0008]将所述谐波拼接数据输入至预设的原始旋律提取模型；其中，所述原始旋律提取模型包括：卷积神经网络、卷积循环神经网络和全连接分类器；
[0009]通过所述卷积神经网络对所述谐波拼接数据进行显著度计算得到音频显著度数据，通过所述全连接分类器对所述音频显著度数据进行人声判别得到人声判别信息；
[0010]通过所述卷积循环神经网络、所...

【技术保护点】

【技术特征摘要】
1.一种人声主旋律提取方法，其特征在于，所述方法包括：获取样本音频数据；对所述样本音频数据进行谐波拼接处理，得到谐波拼接数据；将所述谐波拼接数据输入至预设的原始旋律提取模型；其中，所述原始旋律提取模型包括：卷积神经网络、卷积循环神经网络和全连接分类器；通过所述卷积神经网络对所述谐波拼接数据进行显著度计算得到音频显著度数据，通过所述全连接分类器对所述音频显著度数据进行人声判别得到人声判别信息；通过所述卷积循环神经网络、所述音频显著度数据和所述人声判别信息对所述样本音频数据进行人声主旋律提取，得到人声主旋律序列；将所述人声主旋律序列、预设的主旋律参考序列、所述人声判别信息和预设的判别参考信息进行损失计算，得到目标损失数据；根据所述目标损失数据对所述原始旋律提取模型进行参数调整，得到目标旋律提取模型；将获取的目标音频数据进行谐波拼接处理得到目标拼接数据，并将所述目标拼接数据输入至所述目标旋律提取模型进行人声主旋律提取，得到目标主旋律序列。2.根据权利要求1所述的方法，其特征在于，所述对所述样本音频数据进行谐波拼接处理，得到谐波拼接数据，包括：对所述样本音频数据进行谐波频谱计算，得到音频频谱；对所述音频频谱进行分类处理，得到频谱类别；根据所述频谱类别对所述音频频谱进行频谱拼接处理，得到所述谐波拼接数据。3.根据权利要求2所述的方法，其特征在于，所述对所述样本音频数据进行谐波频谱计算，得到音频频谱，包括：对所述样本音频数据进行分帧处理，得到音频帧数据；对所述音频帧数据进行傅里叶变换处理，得到音频帧频谱；将所述音频帧频谱进行拼接处理，得到所述音频频谱。4.根据权利要求2所述的方法，其特征在于，所述卷积神经网络包括：谐波卷积层和激活层；所述通过所述卷积神经网络对所述谐波拼接数据进行显著度计算得到音频显著度数据，包括：通过所述谐波卷积层对所述音频频谱进行卷积处理，得到频谱序列；通过所述激活层对所述频谱序列进行显著度计算，得到候选显著度数据；通过所述激活层和所述频谱类别将所述候选显著度数据进行拼接处理，得到所述音频显著度数据。5.根据权利要求4所述的方法，其特征在于，通过所述激活层和所述频谱类别将所述候选显著度数据进行拼接处理，得到所述音频显著度数据，包括：根据所述频谱类别从预设权值中筛选出目标权值；通过所述激活层将所述目标权值和所述候选显著度数据进行加权求和计算，得到所述音频显著度数据。6.根据权利要求1至5任一项所述的方法，其特征在于，所述卷积循环神经网络包括：循环卷积层、序列转换层和全连接层；所述通过...

【专利技术属性】
技术研发人员：张旭龙，王健宗，程宁，赵嘉豪，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人