人声主旋律提取方法和装置、电子设备及存储介质制造方法及图纸

技术编号:39271533 阅读:5 留言:0更新日期:2023-11-07 10:51
本申请实施例提供了一种人声主旋律提取方法和装置、电子设备及存储介质,属于金融科技技术领域。该方法包括:获取谐波拼接数据;将谐波拼接数据输入至预设的原始旋律提取模型进行显著度计算得到音频显著度数据,并对音频显著度数据进行人声判别得到人声判别信息;根据音频显著度数据和人声判别信息对样本音频数据进行旋律提取得到人声主旋律序列;将人声主旋律序列、人声判别信息和预设的主旋律参考序列、判别参考信息进行损失计算得到目标损失数据;根据目标损失数据对原始旋律提取模型进行参数调整得到目标旋律提取模型;将目标拼接数据输入至目标旋律提取模型进行旋律提取得到目标主旋律序列。本申请实施例能够提高人声主旋律的提取效果。主旋律的提取效果。主旋律的提取效果。

【技术实现步骤摘要】
人声主旋律提取方法和装置、电子设备及存储介质


[0001]本申请涉及金融科技(Fintech)
,尤其涉及一种人声主旋律提取方法和装置、电子设备及存储介质。

技术介绍

[0002]随着计算机技术的兴起,从音频文件中提取人声主旋律以作为后续人声内容识别以成为语音识别常规的技术手段。例如,在KTV、K歌软件或者哼唱识曲系统中的歌唱打分系统,需要在录制的音频文件中提取出人声主旋律以进行唱歌打分或者识别曲目。
[0003]相关技术中,若音频文件中不存在人声,则人声主旋律的提取效果较差,容易将无人声部分的音频帧提取作为人声主旋律。因此,如何提高人声主旋律的提取效果,成为了亟待解决的技术问题。

技术实现思路

[0004]本申请实施例的主要目的在于提出一种人声主旋律提取方法和装置、电子设备及存储介质,旨在提高人声主旋律的提取效果。
[0005]为实现上述目的,本申请实施例的第一方面提出了一种人声主旋律提取方法,所述方法包括:
[0006]获取样本音频数据;
[0007]对所述样本音频数据进行谐波拼接处理,得到谐波拼接数据;
[0008]将所述谐波拼接数据输入至预设的原始旋律提取模型;其中,所述原始旋律提取模型包括:卷积神经网络、卷积循环神经网络和全连接分类器;
[0009]通过所述卷积神经网络对所述谐波拼接数据进行显著度计算得到音频显著度数据,通过所述全连接分类器对所述音频显著度数据进行人声判别得到人声判别信息;
[0010]通过所述卷积循环神经网络、所述音频显著度数据和所述人声判别信息对所述样本音频数据进行人声主旋律提取,得到人声主旋律序列;
[0011]将所述人声主旋律序列、预设的主旋律参考序列、所述人声判别信息和预设的判别参考信息进行损失计算,得到目标损失数据;
[0012]根据所述目标损失数据对所述原始旋律提取模型进行参数调整,得到目标旋律提取模型;
[0013]将获取的目标音频数据进行谐波拼接处理得到目标拼接数据,并将所述目标拼接数据输入至所述目标旋律提取模型进行人声主旋律提取,得到目标主旋律序列。
[0014]在一些实施例,所述对所述样本音频数据进行谐波拼接处理,得到谐波拼接数据,包括:
[0015]对所述样本音频数据进行谐波频谱计算,得到音频频谱;
[0016]对所述音频频谱进行分类处理,得到频谱类别;
[0017]根据所述频谱类别对所述音频频谱进行频谱拼接处理,得到所述谐波拼接数据。
[0018]在一些实施例,所述对所述样本音频数据进行谐波频谱计算,得到音频频谱,包括:
[0019]对所述样本音频数据进行分帧处理,得到音频帧数据;
[0020]对所述音频帧数据进行傅里叶变换处理,得到音频帧频谱;
[0021]将所述音频帧频谱进行拼接处理,得到所述音频频谱。
[0022]在一些实施例,所述卷积神经网络包括:谐波卷积层和激活层;所述通过所述卷积神经网络对所述谐波拼接数据进行显著度计算得到音频显著度数据,包括:
[0023]通过所述谐波卷积层对所述音频频谱进行卷积处理,得到频谱序列;
[0024]通过所述激活层对所述频谱序列进行显著度计算,得到候选显著度数据;
[0025]通过所述激活层和所述频谱类别将所述候选显著度数据进行拼接处理,得到所述音频显著度数据。
[0026]在一些实施例,通过所述激活层和所述频谱类别将所述候选显著度数据进行拼接处理,得到所述音频显著度数据,包括:
[0027]根据所述频谱类别从预设权值中筛选出目标权值;
[0028]通过所述激活层将所述目标权值和所述候选显著度数据进行加权求和计算,得到所述音频显著度数据。
[0029]在一些实施例,所述卷积循环神经网络包括:循环卷积层、序列转换层和全连接层;所述通过所述卷积循环神经网络、所述音频显著度数据和所述人声判别信息对所述样本音频数据进行人声主旋律提取,得到人声主旋律序列,包括:
[0030]通过所述循环卷积层对所述音频显著度数据进行特征提取,得到显著度特征;
[0031]通过所述序列转换层将所述显著度特征进行序列化处理,得到显著度序列;
[0032]通过所述全连接层、所述显著度序列和所述人声判别信息对所述样本音频数据进行人声主旋律提取,得到所述人声主旋律序列。
[0033]在一些实施例,所述将所述人声主旋律序列、预设的主旋律参考序列、所述人声判别信息和预设的判别参考信息进行损失计算,得到目标损失数据,具体包括:
[0034]对所述人声主旋律序列和所述主旋律参考序列进行损失计算,得到旋律损失数据;
[0035]对所述人声判别信息和所述判别参考信息进行损失计算,得到判别损失数据;
[0036]将预设的权重参数、所述旋律损失数据和所述判别损失数据进行加权求和计算,得到所述目标损失数据。
[0037]为实现上述目的,本申请实施例的第二方面提出了一种人声主旋律提取装置,所述装置包括:
[0038]数据获取模块,用于获取样本音频数据;
[0039]谐波拼接模块,用于对所述样本音频数据进行谐波拼接处理,得到谐波拼接数据;
[0040]数据输入模块,用于将所述谐波拼接数据输入至预设的原始旋律提取模型;其中,所述原始旋律提取模型包括:卷积神经网络、卷积循环神经网络和全连接分类器:
[0041]数据处理模块,用于通过所述卷积神经网络对所述谐波拼接数据进行显著度计算得到音频显著度数据,通过所述全连接分类器对所述音频显著度数据进行人声判别得到人声判别信息;
[0042]人声主旋律提取模块,用于通过所述卷积循环神经网络、所述音频显著度数据和所述人声判别信息对所述样本音频数据进行人声主旋律提取,得到人声主旋律序列;
[0043]损失计算模块,用于将人声主旋律序列、预设的主旋律参考序列、人声判别信息和预设的判别参考信息进行损失计算,得到目标损失数据;
[0044]参数调整模块,用于根据所述目标损失数据对所述原始旋律提取模型进行参数调整,得到目标旋律提取模型;
[0045]目标旋律提取模块,用于将获取的目标音频数据进行谐波拼接处理得到目标拼接数据,并将所述目标拼接数据输入至所述目标旋律提取模型进行人声主旋律提取,得到目标主旋律序列。
[0046]为实现上述目的,本申请实施例的第三方面提出了一种电子设备,所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的方法。
[0047]为实现上述目的,本申请实施例的第四方面提出了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面所述的方法。
[0048]本申请提出的人声主旋律提取方法和装置、电子设备及存储介质,其通过对样本音频数据进行谐波拼接得到谐波拼接数据,减少样本音频数据中的干扰信本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种人声主旋律提取方法,其特征在于,所述方法包括:获取样本音频数据;对所述样本音频数据进行谐波拼接处理,得到谐波拼接数据;将所述谐波拼接数据输入至预设的原始旋律提取模型;其中,所述原始旋律提取模型包括:卷积神经网络、卷积循环神经网络和全连接分类器;通过所述卷积神经网络对所述谐波拼接数据进行显著度计算得到音频显著度数据,通过所述全连接分类器对所述音频显著度数据进行人声判别得到人声判别信息;通过所述卷积循环神经网络、所述音频显著度数据和所述人声判别信息对所述样本音频数据进行人声主旋律提取,得到人声主旋律序列;将所述人声主旋律序列、预设的主旋律参考序列、所述人声判别信息和预设的判别参考信息进行损失计算,得到目标损失数据;根据所述目标损失数据对所述原始旋律提取模型进行参数调整,得到目标旋律提取模型;将获取的目标音频数据进行谐波拼接处理得到目标拼接数据,并将所述目标拼接数据输入至所述目标旋律提取模型进行人声主旋律提取,得到目标主旋律序列。2.根据权利要求1所述的方法,其特征在于,所述对所述样本音频数据进行谐波拼接处理,得到谐波拼接数据,包括:对所述样本音频数据进行谐波频谱计算,得到音频频谱;对所述音频频谱进行分类处理,得到频谱类别;根据所述频谱类别对所述音频频谱进行频谱拼接处理,得到所述谐波拼接数据。3.根据权利要求2所述的方法,其特征在于,所述对所述样本音频数据进行谐波频谱计算,得到音频频谱,包括:对所述样本音频数据进行分帧处理,得到音频帧数据;对所述音频帧数据进行傅里叶变换处理,得到音频帧频谱;将所述音频帧频谱进行拼接处理,得到所述音频频谱。4.根据权利要求2所述的方法,其特征在于,所述卷积神经网络包括:谐波卷积层和激活层;所述通过所述卷积神经网络对所述谐波拼接数据进行显著度计算得到音频显著度数据,包括:通过所述谐波卷积层对所述音频频谱进行卷积处理,得到频谱序列;通过所述激活层对所述频谱序列进行显著度计算,得到候选显著度数据;通过所述激活层和所述频谱类别将所述候选显著度数据进行拼接处理,得到所述音频显著度数据。5.根据权利要求4所述的方法,其特征在于,通过所述激活层和所述频谱类别将所述候选显著度数据进行拼接处理,得到所述音频显著度数据,包括:根据所述频谱类别从预设权值中筛选出目标权值;通过所述激活层将所述目标权值和所述候选显著度数据进行加权求和计算,得到所述音频显著度数据。6.根据权利要求1至5任一项所述的方法,其特征在于,所述卷积循环神经网络包括:循环卷积层、序列转换层和全连接层;所述通过...

【专利技术属性】
技术研发人员:张旭龙王健宗程宁赵嘉豪
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1