语音数据的分离方法、装置、设备及存储介质制造方法及图纸

技术编号：30333255 阅读：25 留言：0更新日期：2021-10-10 00:55

本发明专利技术涉及语音信号处理技术领域，本发明专利技术公开了一种语音数据的分离方法、装置、设备及存储介质，所述方法包括：通过将待分离语音数据输入至人声分离模型；对贷分离语音数据进行多通道子频带处理，得到全频数据和子频带数据；再对各全频数据以及所有子频带数据进行人声频率特征提取，根据提取的人声频率特征进行识别，得到人声识别矩阵；运用二值掩蔽方法，对所有人声识别矩阵进行掩码拼接处理，得到分离掩码结果；对待分离语音数据进行人声分离，得到人声音频数据。因此，本发明专利技术实现了自动分离出语音数据中的人声部分，无需人工录制，节省成本，提高了分离准确率和质量。提高了分离准确率和质量。提高了分离准确率和质量。

全部详细技术资料下载

【技术实现步骤摘要】
语音数据的分离方法、装置、设备及存储介质

[0001]本专利技术涉及语音信号处理
，尤其涉及一种语音数据的分离方法、装置、设备及存储介质。

技术介绍

[0002]音乐是一种乐器音和歌声混合叠加而成的复杂音频信号，其中包含了各种乐器的伴奏和不同人的歌声，近些年来，音乐创作速度呈现爆炸式增长，每天有成百上千的原唱歌曲产生，但与原唱歌曲相对应的K歌伴奏无法及时提供到K歌系统中进行导入使用，K歌系统中的绝大部分伴奏库都需要具有音频知识的专业人员进行录制，而且目前现有技术大部分针对双声道歌曲的人声和伴奏的分离，无法对单声道歌曲进行，造成应用场景受限，以及对双声道歌曲进行分离时，需要同时对左右声道的混合歌曲进行分离，造成对双声道音频的分离复杂度较高，往往容易出现混杂人声部分。因此，现有的人声和半奏的分离方案的要求门槛高，录制效率低，成本高，而且达不到用户对于纯净的伴奏声或者人声的要求。

技术实现思路

[0003]本专利技术提供一种语音数据的分离方法、装置、计算机设备及存储介质，实现了通过人声分离模型进行多通道子频带处理，和人声频率特征提取，以及运用二值掩蔽方法，自动分离出语音数据中的人声部分，无需人工录制，减少了成本，提高了分离准确率和质量，并提升了分离效率和用户体验满意度。
[0004]一种语音数据的分离方法，包括：
[0005]获取待分离语音数据，并将所述待分离语音数据输入至人声分离模型；
[0006]对所述待分离语音数据进行多通道子频带处理，得到多个全频数据和多个子频带数据；其...

【技术保护点】

【技术特征摘要】
1.一种语音数据的分离方法，其特征在于，包括：获取待分离语音数据，并将所述待分离语音数据输入至人声分离模型；对所述待分离语音数据进行多通道子频带处理，得到多个全频数据和多个子频带数据；其中，一个所述全频数据对应多个所述子频带数据；对各所述全频数据以及与各所述全频数据对应的所有所述子频带数据进行人声频率特征提取，根据提取的所述人声频率特征进行人声频率点识别，得到与各所述全频数据一一对应的人声识别矩阵；运用二值掩蔽方法，对所有所述人声识别矩阵进行掩码拼接处理，得到分离掩码结果；根据所述分离掩码结果，对所述待分离语音数据进行人声分离，得到与所述待分离语音数据对应的人声音频数据。2.如权利要求1所述的语音数据的分离方法，其特征在于，所述对所述待分离语音数据进行多通道子频带处理，得到多个全频数据和多个子频带数据，包括：对所述待分离语音数据进行短时傅里叶变换处理，得到多个全频频谱图；所述人声分离模型包括一个全频特征提取模型和多个子频带特征提取模型，一个子频带特征提取模型对应一个子频带；对各所述全频频谱图进行频带分解，得到与各所述全频频谱图对应的子频带频谱图；一个所述全频频谱图对应预设子频带个数的所述子频带频谱图，且每一个所述子频带频谱图对应一个子频带；将各所述全频频谱图输入全频特征提取模型，通过所述全频特征提取模型对所述全频频谱图中的全频特征进行提取，得到与各所述全频频谱图一一对应的所述全频数据；将各所述子频带频谱图输入与其子频带对应的子频带特征提取模型，通过各所述子频带特征提取模型提取各所述子频带频谱图中的与其子频带对应的音频特征，得到与各所述子频带频谱图一一对应的所述子频带数据。3.如权利要求2所述的语音数据的分离方法，其特征在于，所述子频带包括低频频带和高频频带；所述将各所述子频带频谱图输入与其子频带对应的子频带特征提取模型，通过各所述子频带特征提取模型提取各所述子频带频谱图中的与其子频带对应的音频特征，得到与各所述子频带频谱图一一对应的所述子频带数据，包括：将与所述低频频带对应的所述子频带频谱图输入与所述低频频带对应的低频子频带特征提取模型，通过所述低频子频带特征提取模型对所述子频带频谱图进行低频频带的音频特征的提取，得到低频频带的所述子频带数据；所述低频子频带特征提取模型为基于MMDenseNet的深度学习模型；将与所述高频频带对应的所述子频带频谱图输入与所述高频频带对应的高频子频带特征提取模型，通过所述高频子频带特征提取模型对所述子频带频谱图进行高频频带的音频特征的提取，得到高频频带的所述子频带数据；所述高频子频带特征提取模型为基于MMDenseNet的深度学习模型。4.如权利要求1所述的语音数据的分离方法，其特征在于，所述对各所述全频数据以及与各所述全频数据对应的所有所述子频带数据进行人声频率特征提取，根据提取的所述人声频率特征进行人声频率点识别，得到与各所述全频数据一一对应的人声识别矩阵，包括：
对所述全频数据和与该全频数据对应的所有所述子频带数据进行多通道下采样，提取所述人声频...

【专利技术属性】
技术研发人员：张旭龙，王健宗，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人