人声分离方法、装置、用户终端及存储介质制造方法及图纸

技术编号：21955305 阅读：35 留言：0更新日期：2019-08-24 19:08

本发明专利技术公开了一种人声分离方法、装置、用户终端及存储介质，涉及音频处理技术领域。该方法包括将采样的待分离音频文件声道分离得到初始波形序列；初始波形序列离散傅立叶变换得到初始二维数组；对初始二维数组进行取模得到初始语谱图；对初始二维数组进行取相位得到初始相位图；将初始语谱图导入卷积神经网络模型运算得到掩膜；将掩膜与初始相位图进行第一点乘运算得到人声源语谱图；将人声源语谱图与初始相位图进行第二点乘运算；对第二点乘运算的结果进行离散傅立叶逆变换得到单人声源音频波形；将单人声源音频波形拼接得到立体音频。本发明专利技术公开的方法、装置、用户终端及存储介质可实现音频的自动化人声分离。

Sound separation methods, devices, user terminals and storage media

全部详细技术资料下载

【技术实现步骤摘要】
人声分离方法、装置、用户终端及存储介质
本专利技术涉及音频处理
，尤其是涉及一种人声分离方法、装置、用户终端及存储介质。
技术介绍
通常对流行音乐来说，人声即主旋律，而伴奏则是音乐的节奏，由于人声通常都伴随着背景音乐，所以人声分离是一项具有挑战性的任务，是歌手识别，情感识别，乐器分类的先决条件，而这些技术则可以作用于推荐系统、标签分类等应用。人声分离系统的商业应用之一是卡拉OK，意思是没有人声的音乐曲目。卡拉OK音乐有助于音乐爱好者学习歌唱现有的乐曲或者在音乐会中演唱该曲目。目前，提取卡拉OK音乐是在录制的过程中完成的，这需要大量的人工操作和时间。现有用于人声分离的深度学习技术大多数都以降低采样率与减少声道为代价以提高分离效果，分离后导致音频质量下降，降低了音频的听觉效果。
技术实现思路
有鉴于此，本专利技术的目的在于提提供一种人声分离方法、装置、用户终端及存储介质，以改善上述问题。为了实现上述目的，本专利技术采用如下技术方案：第一方面，本专利技术实施例提供了一种人声分离方法，应用于用户终端，所述方法包括：将采样后的待分离音频文件进行声道分离，得到与左右声道对应的两个的初始波形序列；对每个所述初始波形序列进行离散傅立叶变换，得到与两个所述初始波形序列一一对应两个初始二维数组；对每个所述初始二维数组进行取模操作，得到与两个所述初始二维数组一一对应的两个初始语谱图；对每个所述初始二维数组进行取相位操作，得到与两个所述初始二维数组一一对应的两个初始相位图；将每个所述初始语谱图作为预先训练好的卷积神经网络模型的输入进行运算，得到与两个所述初始语谱图一一对应的两个...

【技术保护点】
1.一种人声分离方法，应用于用户终端，其特征在于，所述方法包括：将采样后的待分离音频文件进行声道分离，得到与左右声道对应的两个的初始波形序列；对每个所述初始波形序列进行离散傅立叶变换，得到与两个所述初始波形序列一一对应两个初始二维数组；对每个所述初始二维数组进行取模操作，得到与两个所述初始二维数组一一对应的两个初始语谱图；对每个所述初始二维数组进行取相位操作，得到与两个所述初始二维数组一一对应的两个初始相位图；将每个所述初始语谱图作为预先训练好的卷积神经网络模型的输入进行运算，得到与两个所述初始语谱图一一对应的两个掩膜；将每个掩膜与对应的初始相位图进行第一点乘运算，得到与两个所述掩膜一一对应的人声源语谱图；将每个所述人声源语谱图与对应的初始相位图进行第二点乘运算；对每个所述第二点乘运算的结果进行离散傅立叶逆变换，得到两个单人声源音频波形；将两个所述单人声源音频波形进行拼接，得到立体音频。

【技术特征摘要】
1.一种人声分离方法，应用于用户终端，其特征在于，所述方法包括：将采样后的待分离音频文件进行声道分离，得到与左右声道对应的两个的初始波形序列；对每个所述初始波形序列进行离散傅立叶变换，得到与两个所述初始波形序列一一对应两个初始二维数组；对每个所述初始二维数组进行取模操作，得到与两个所述初始二维数组一一对应的两个初始语谱图；对每个所述初始二维数组进行取相位操作，得到与两个所述初始二维数组一一对应的两个初始相位图；将每个所述初始语谱图作为预先训练好的卷积神经网络模型的输入进行运算，得到与两个所述初始语谱图一一对应的两个掩膜；将每个掩膜与对应的初始相位图进行第一点乘运算，得到与两个所述掩膜一一对应的人声源语谱图；将每个所述人声源语谱图与对应的初始相位图进行第二点乘运算；对每个所述第二点乘运算的结果进行离散傅立叶逆变换，得到两个单人声源音频波形；将两个所述单人声源音频波形进行拼接，得到立体音频。2.根据权利要求1所述的方法，其特征在于，所述方法还包括：读取每个音频文件的各个音轨；根据读取到的各个音轨制作数据集，所述数据集包括混合源和对应的标签源，所述混合源包括人声音轨和一音频文件的所有乐器音轨，所述标签源为所述混合源中的人声音轨；对所述数据集中的训练源进行采样，得到对应的训练波形序列，所述训练源包括所述混合源和所述标签源；对每个所述训练波形序列进行离散傅立叶变化，得到对应的训练二维数据组；对每个所述训练二维数组进行取模运算，得到对应的训练语谱图；对每张所述训练语谱图进行归一化处理，得到目标训练集；将所述目标训练集进行切片，得到多批训练数据；将与所述混合源对应的训练数据作为输入，与所述标签源对应的训练数据作为目标进行训练，得到训练好的所述卷积神经网络模型。3.根据权利要求2所述的方法，其特征在于，所述对所述数据集中的训练源进行采样，包括依据所述训练源自身的频率对所述数据集中的训练源进行采样或依据所述训练源自身的频率对所述数据集中的训练源向下采样。4.根据权利要求2所述的方法，其特征在于，所述对每个所述训练波形序列进行离散傅立叶变化，包括：以预定的窗口大小对每个所述训练波形序列进行离散傅立叶变化。5.一种人声分离装置，应用于用户终端，其特征在于，所述人声分离装置包括：分离模块，用于将采样后的待分离音频文件进行声道分离，得到与左右声道对应的两个的初始波形序列；傅立叶变换模块，用于对每个所述初始波形序列进行离散傅立叶变换，得到与两个所述初始波形序列一一对应两个初始二维数组；取模模块，用于对每个所述初始二维数组进行取模操作，得到与两个所述初始二维数组一一对应的两个初始语谱图；取相位模块，用于对每个所述初始二维数组进行取相位操作，得到与两个所述初始二维数组一一对应的两个初始相位图；运算模块，用于将每个所述初始语谱图作为预先训练好的卷积神经网络模型的输入进行运算，得到与两个所述初始语谱图一一对应的两个掩膜；点乘模块，用于将每个掩膜与对应的初始相位图进行第一点乘运算，得到与两个所述掩膜一一对应的人声源语谱图；所述点乘模块还用于将每个所述人声源语...

【专利技术属性】
技术研发人员：尹学渊，江天宇，陈洪宇，梁超，
申请(专利权)人：成都嗨翻屋科技有限公司，
类型：发明
国别省市：四川,51

全部详细技术资料下载我是这个专利的主人