语音数据的分离方法、装置、设备及存储介质制造方法及图纸

技术编号:30333255 阅读:25 留言:0更新日期:2021-10-10 00:55
本发明专利技术涉及语音信号处理技术领域,本发明专利技术公开了一种语音数据的分离方法、装置、设备及存储介质,所述方法包括:通过将待分离语音数据输入至人声分离模型;对贷分离语音数据进行多通道子频带处理,得到全频数据和子频带数据;再对各全频数据以及所有子频带数据进行人声频率特征提取,根据提取的人声频率特征进行识别,得到人声识别矩阵;运用二值掩蔽方法,对所有人声识别矩阵进行掩码拼接处理,得到分离掩码结果;对待分离语音数据进行人声分离,得到人声音频数据。因此,本发明专利技术实现了自动分离出语音数据中的人声部分,无需人工录制,节省成本,提高了分离准确率和质量。提高了分离准确率和质量。提高了分离准确率和质量。

【技术实现步骤摘要】
语音数据的分离方法、装置、设备及存储介质


[0001]本专利技术涉及语音信号处理
,尤其涉及一种语音数据的分离方法、装置、设备及存储介质。

技术介绍

[0002]音乐是一种乐器音和歌声混合叠加而成的复杂音频信号,其中包含了各种乐器的伴奏和不同人的歌声,近些年来,音乐创作速度呈现爆炸式增长,每天有成百上千的原唱歌曲产生,但与原唱歌曲相对应的K歌伴奏无法及时提供到K歌系统中进行导入使用,K歌系统中的绝大部分伴奏库都需要具有音频知识的专业人员进行录制,而且目前现有技术大部分针对双声道歌曲的人声和伴奏的分离,无法对单声道歌曲进行,造成应用场景受限,以及对双声道歌曲进行分离时,需要同时对左右声道的混合歌曲进行分离,造成对双声道音频的分离复杂度较高,往往容易出现混杂人声部分。因此,现有的人声和半奏的分离方案的要求门槛高,录制效率低,成本高,而且达不到用户对于纯净的伴奏声或者人声的要求。

技术实现思路

[0003]本专利技术提供一种语音数据的分离方法、装置、计算机设备及存储介质,实现了通过人声分离模型进行多通道子频带处理,和人声频率特征提取,以及运用二值掩蔽方法,自动分离出语音数据中的人声部分,无需人工录制,减少了成本,提高了分离准确率和质量,并提升了分离效率和用户体验满意度。
[0004]一种语音数据的分离方法,包括:
[0005]获取待分离语音数据,并将所述待分离语音数据输入至人声分离模型;
[0006]对所述待分离语音数据进行多通道子频带处理,得到多个全频数据和多个子频带数据;其中,一个所述全频数据对应多个所述子频带数据;
[0007]对各所述全频数据以及与各所述全频数据对应的所有所述子频带数据进行人声频率特征提取,根据提取的所述人声频率特征进行人声频率点识别,得到与各所述全频数据一一对应的人声识别矩阵;
[0008]运用二值掩蔽方法,对所有所述人声识别矩阵进行掩码拼接处理,得到分离掩码结果;
[0009]根据所述分离掩码结果,对所述待分离语音数据进行人声分离,得到与所述待分离语音数据对应的人声音频数据。
[0010]一种语音数据的分离装置,包括:
[0011]获取模块,用于获取待分离语音数据,并将所述待分离语音数据输入至人声分离模型;
[0012]处理模块,用于对所述待分离语音数据进行多通道子频带处理,得到多个全频数据和多个子频带数据;其中,一个所述全频数据对应多个所述子频带数据;
[0013]提取模块,用于对各所述全频数据以及与各所述全频数据对应的所有所述子频带
数据进行人声频率特征提取,根据提取的所述人声频率特征进行人声频率点识别,得到与各所述全频数据一一对应的人声识别矩阵;
[0014]拼接模块,用于运用二值掩蔽方法,对所有所述人声识别矩阵进行掩码拼接处理,得到分离掩码结果;
[0015]分离模块,用于根据所述分离掩码结果,对所述待分离语音数据进行人声分离,得到与所述待分离语音数据对应的人声音频数据。
[0016]一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述语音数据的分离方法的步骤。
[0017]一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述语音数据的分离方法的步骤。
[0018]本专利技术提供的语音数据的分离方法、装置、计算机设备及存储介质,该方法通过将待分离语音数据输入至人声分离模型;对所述待分离语音数据进行多通道子频带处理,得到多个全频数据和多个子频带数据;再对各所述全频数据以及与各所述全频数据对应的所有所述子频带数据进行人声频率特征提取,根据提取的所述人声频率特征进行人声频率点识别,得到与各所述全频数据一一对应的人声识别矩阵;运用二值掩蔽方法,对所有所述人声识别矩阵进行掩码拼接处理,得到分离掩码结果;最后,根据所述分离掩码结果,对所述待分离语音数据进行人声分离,得到与所述待分离语音数据对应的人声音频数据,如此,实现了通过人声分离模型进行多通道子频带处理,以及进行人声频率特征提取,并运用二值掩蔽方法,进行掩码拼接,自动分离出语音数据中的人声部分,无需专业人员的录制工作,大大降低了人声分离的门槛和成本,并打破了现有单声道无法分离的局限性,以及提高了分离准确率和质量,大大提升了分离效率和用户体验满意度。
附图说明
[0019]为了更清楚地说明本专利技术实施例的技术方案,下面将对本专利技术实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0020]图1是本专利技术一实施例中语音数据的分离方法的应用环境示意图;
[0021]图2是本专利技术一实施例中语音数据的分离方法的流程图;
[0022]图3是本专利技术一实施例中语音数据的分离方法的步骤S30的流程图;
[0023]图4是本专利技术一实施例中语音数据的分离方法的步骤S40的流程图;
[0024]图5是本专利技术一实施例中语音数据的分离装置的原理框图;
[0025]图6是本专利技术一实施例中计算机设备的示意图。
具体实施方式
[0026]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施
例,都属于本专利技术保护的范围。
[0027]本专利技术提供的语音数据的分离方法,可应用在如图1的应用环境中,其中,客户端(计算机设备或终端)通过网络与服务器进行通信。其中,客户端(计算机设备或终端)包括但不限于为各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
[0028]在一实施例中,如图2所示,提供一种语音数据的分离方法,其技术方案主要包括以下步骤S10

S50:
[0029]S10,获取待分离语音数据,并将所述待分离语音数据输入至人声分离模型。
[0030]可理解地,所述待分离语音数据为一段混合有人声和伴奏(或者背景音乐、背景嘈杂声)的复杂的音频文件或音频数据,例如:音乐播放平台上的流行音乐、摇滚音乐,或者语音聊天中的语音对话,或者视频聊天中的音频部分的数据等等,在一实施例中,所述待分离语音数据可以通过实时获取来自音频采集设备进行采集传输过来的音频数据,即定时采集一段短时间的音频数据,例如:1秒或者2秒的音频数据。
[0031]其中,所述人声分离模型为训练完成的用于将输入的待分离语音数据分离出人声部分的深度神经网络模型。
[0032]S20,对所述待分离语音数据进行多通道子频带处理,得到多个全频数据和多个子频带数据;其中,一本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音数据的分离方法,其特征在于,包括:获取待分离语音数据,并将所述待分离语音数据输入至人声分离模型;对所述待分离语音数据进行多通道子频带处理,得到多个全频数据和多个子频带数据;其中,一个所述全频数据对应多个所述子频带数据;对各所述全频数据以及与各所述全频数据对应的所有所述子频带数据进行人声频率特征提取,根据提取的所述人声频率特征进行人声频率点识别,得到与各所述全频数据一一对应的人声识别矩阵;运用二值掩蔽方法,对所有所述人声识别矩阵进行掩码拼接处理,得到分离掩码结果;根据所述分离掩码结果,对所述待分离语音数据进行人声分离,得到与所述待分离语音数据对应的人声音频数据。2.如权利要求1所述的语音数据的分离方法,其特征在于,所述对所述待分离语音数据进行多通道子频带处理,得到多个全频数据和多个子频带数据,包括:对所述待分离语音数据进行短时傅里叶变换处理,得到多个全频频谱图;所述人声分离模型包括一个全频特征提取模型和多个子频带特征提取模型,一个子频带特征提取模型对应一个子频带;对各所述全频频谱图进行频带分解,得到与各所述全频频谱图对应的子频带频谱图;一个所述全频频谱图对应预设子频带个数的所述子频带频谱图,且每一个所述子频带频谱图对应一个子频带;将各所述全频频谱图输入全频特征提取模型,通过所述全频特征提取模型对所述全频频谱图中的全频特征进行提取,得到与各所述全频频谱图一一对应的所述全频数据;将各所述子频带频谱图输入与其子频带对应的子频带特征提取模型,通过各所述子频带特征提取模型提取各所述子频带频谱图中的与其子频带对应的音频特征,得到与各所述子频带频谱图一一对应的所述子频带数据。3.如权利要求2所述的语音数据的分离方法,其特征在于,所述子频带包括低频频带和高频频带;所述将各所述子频带频谱图输入与其子频带对应的子频带特征提取模型,通过各所述子频带特征提取模型提取各所述子频带频谱图中的与其子频带对应的音频特征,得到与各所述子频带频谱图一一对应的所述子频带数据,包括:将与所述低频频带对应的所述子频带频谱图输入与所述低频频带对应的低频子频带特征提取模型,通过所述低频子频带特征提取模型对所述子频带频谱图进行低频频带的音频特征的提取,得到低频频带的所述子频带数据;所述低频子频带特征提取模型为基于MMDenseNet的深度学习模型;将与所述高频频带对应的所述子频带频谱图输入与所述高频频带对应的高频子频带特征提取模型,通过所述高频子频带特征提取模型对所述子频带频谱图进行高频频带的音频特征的提取,得到高频频带的所述子频带数据;所述高频子频带特征提取模型为基于MMDenseNet的深度学习模型。4.如权利要求1所述的语音数据的分离方法,其特征在于,所述对各所述全频数据以及与各所述全频数据对应的所有所述子频带数据进行人声频率特征提取,根据提取的所述人声频率特征进行人声频率点识别,得到与各所述全频数据一一对应的人声识别矩阵,包括:
对所述全频数据和与该全频数据对应的所有所述子频带数据进行多通道下采样,提取所述人声频...

【专利技术属性】
技术研发人员:张旭龙王健宗
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1