单声道人声与背景音乐分离方法技术

技术编号:27125890 阅读:34 留言:0更新日期:2021-01-25 19:45
本发明专利技术公开了单声道人声与背景音乐分离方法,包括一、将待分离的时域模拟语音信号转化为时域数字语音信号;二、对步骤一中的时域数字语音信号进行短时傅里叶变换,取其幅值信息得到语谱图;三、建立循环神经网络框架;四、将步骤二得到的语谱图输入步骤三中的循环神经网络框架,得到与语谱图尺寸相同人声时频掩模;五通过差分的方法计算得到背景音乐的时频掩模;六、将步骤五中得到的两个时频掩模与步骤二得到的语谱图进行点乘,得到分离出的人声语谱图和背景音乐语谱图;七、进行短时傅里叶逆变换,分别得到人声的时域数字语音信号和背景音乐的时域数字语音信号。通过引入循环神经网络和时频掩模,显著的提高了分离过程的识别率和准确率。率和准确率。率和准确率。

【技术实现步骤摘要】
单声道人声与背景音乐分离方法


[0001]本专利技术涉及音频处理
,具体涉及单声道人声与背景音乐分离方法。

技术介绍

[0002]在现实生活中,声音信号通常由来自多个声源的声音混合。例如,歌曲信息是人声和音乐背景音乐的混合信号。人耳可以从复杂的语音信息中有效的捕捉到自己感兴趣的信息,即便这些语音信号在频率上和时间上都配合得很“融洽”,例如歌唱声音的分离对人类来说就是很自然的听觉系统,然而用计算机上实现人耳的这个能力非常困难。
[0003]单声道人声与背景音乐分离面临着许多挑战,最大的挑战是声音和背景音乐信号的非平稳特性,以及仅提供一个声道的信号。如果信号和干扰信号是平稳或变化缓慢的,则可以通过维纳滤波的方法解决。然而实际情况中大多数情况下的单声道信号并不是平稳或缓慢的,这就导致了在对单声道音频信号进行识别时,对人声的识别率,同时识别的准确率也非常低。

技术实现思路

[0004]本专利技术目的在于解决现有技术中在针对单声道人声与背景音乐分离时识别率和准确率低的问题,提供了单声道人声与背景音乐分离方法,显著的提高了分离过程的识别率和准确率,对单声道音频文件中的人声进行了有效的还原。
[0005]本专利技术通过下述技术方案实现:
[0006]单声道人声与背景音乐分离方法,包括以下步骤:
[0007]步骤一、将待分离的时域模拟语音信号转化为时域数字语音信号;
[0008]步骤二、对步骤一中的时域数字语音信号进行短时傅里叶变换,取其幅值信息得到语谱图;
[0009]步骤三、建立循环神经网络框架;
[0010]步骤四、将步骤二得到的语谱图输入步骤三中的循环神经网络框架,得到与语谱图尺寸相同人声时频掩模M
vocal

[0011]步骤五、根据步骤四得到的人声时频掩模M
vocal
通过差分的方法计算得到背景音乐的时频掩模;
[0012]步骤六、将步骤五中得到的两个时频掩模与步骤二得到的语谱图进行点乘,得到分离出的人声语谱图和背景音乐语谱图;
[0013]步骤七、对人声语谱图和背景音乐语谱图进行短时傅里叶逆变换,分别得到人声的时域数字语音信号和背景音乐的时域数字语音信号。
[0014]大量的移动设备只能够录制单声道的音频,并且只有专业音乐工作室才能够录制多声道的音频,因此在许多情况下需要处理单声道信号是必要的,现有的技术中在针对单声道音频文件中的人声和背景音乐分离时大多采用NMF算法,虽然起到了一定人声和背景音乐分离的效果,但是对单声道音频文件中的人声的识别率较低,识别准确度也不高,会造
成原始音频文件中人声的大量损失;针对上述问题,专利技术人设计了本专利技术,由于单声道语音信号表现形式如同随着时间变化的电压信号,是随时间变化的一维连续模拟信号,为方便对信号进行处理所以步骤一中将其转变成为时域数字语音信号,正常的时域数字语音信号虽然很直观,其幅值代表声音大小,频率高低影响音调的高低;由于背景音乐与人声在时域上为加性噪声且没个时间点上仅代表了信号的幅值信息,直接在时域上直接进行人声与背景音乐分离比较困难;为了更好的展示出语音信号中的幅值、频率与时间信息,步骤二中对时域上的语音信号进行短时傅里叶变换,取其幅值信息后得到语谱图;在现实世界的场景中,各种语音信号可能并不总是遵循高斯分布,线性模型的表达力不足以模拟复杂的模型来分离混合信号;混合信号之间的映射关系和分离的源作为非线性变换,所以步骤三中专利技术人建立了循环神经网络,音频信号本质上是一种时间序列,所以使用深度神经网络对单声道源分离任务建模时间信息,要捕获音频信号之间的上下文信息,连接相邻时间的音频特征,幅度谱,作为深度神经元的输入特征网络;但是,这样一来神经网络参数的数量与输入的维度和相邻时间成比例增加;所以本专利技术中专利技术人采用的建模是循环神经网络;循环神经网络可以被视为有无限层的深度神经网络,步骤四再将步骤二得到的语谱图输入步骤三中的循环神经网络框架,得到与语谱图频率成分相同的人声分量和背景音乐分量在语音信号的分离中,神经网络直接输出期望的幅值比较困难,所以本专利技术中输出是采用时频掩模,再将步骤五中得到的两个时频掩模与步骤二得到的语谱图进行点乘,得到分离出的人声语谱图和背景音乐语谱图;最后进行短时傅里叶逆变换,分别得到人声的时域数字语音信号和背景音乐的时域数字语音信号。
[0015]进一步的,步骤一中将时域模拟语音信号转化为时域数字语音信号的过程中,其采样频率满足香农采样定律;f
s
>2f
max
,f
s
表示采样频率,f
max
表示时域模拟语音信号的最高频率。对于语音信号,为了提高其信号的清晰度和还原度,采样率越高,其语音的真实度就越高,为了保证时域数字语音信号能够有较高的清晰度和还原度,所以本专利技术中f
s
>2f
max
,具体的本专利技术中语音信号的格式为wav格式,采样频率为16000Hz或44100Hz。
[0016]进一步的,步骤二的具体步骤如下:
[0017]步骤2.1、将步骤一得到的时域数字语音信号切分成n个信号段,每个信号段的时间为20ms~40ms,且相邻信号段之间的重叠率为α,45%<α<55%;
[0018]步骤2.2、对每一信号段加汉宁窗,窗函数的长度与信号段长度相等;
[0019]步骤2.3、对每一信号段进行短时傅里叶变换,得到短时傅里叶变换后的结果:
[0020][0021]其中:x(n)为信号段,w(n)为窗函数。
[0022]由于分段后一段语音信号整体上看不是平稳的,但是在局部上可以看作是平稳的,在后期的语音处理中需要输入的是平稳信号,所以要对整段语音信号分帧,也就是将含普通话语音段切分成很多的小段,每个小段中的信号可以看成是平稳的,对每个小段进行一定频率的采样,通常为8kHz、16kHz等,再将该小段中的所有采样点集合成一个观测单位,称为帧,语音去噪的单位就是帧,这里定义该小段中采样点的个数为N;通常情况下N的值为256或512,涵盖的时间约为20-30ms,所以不同的程序中一帧的长度不一样。由于分帧后帧
与帧之间的连续性就降低了,为了避免相邻两帧的变化过大,因此会让两帧之间有一定的重叠区域,重叠区域包含M个采样点,M一般为N的1/2或1/3;由于分帧后,每一帧的起始段和末尾端会出现不连续的地方,所以分帧越多与原始信号的误差也就越大,加窗就是为了解决这个问题,使分帧后的信号变得连续,每一帧就会表现出周期函数的特征,加窗的目的就是一次仅处理窗中的数据,因为实际的语音信号是很长的,我们不能也不必对非常长的数据进行一次性处理,故而在语音信号处理中采用了加汉明窗的方式,因为加上汉明窗,只有中间的数据体现出来了,两边的数据信息丢失了,所以在移窗时,移动1/3或1/2窗,这样被前一帧或二帧丢失的数据又重新得到了体现;正常的时域数字语音信号虽然很直观,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.单声道人声与背景音乐分离方法,其特征在于,包括以下步骤:步骤一、将待分离的时域模拟语音信号转化为时域数字语音信号;步骤二、对步骤一中的时域数字语音信号进行短时傅里叶变换,取其幅值信息得到语谱图;步骤三、建立循环神经网络框架;步骤四、将步骤二得到的语谱图输入步骤三中的循环神经网络框架,得到与语谱图尺寸相同人声时频掩模M
vocal
;步骤五、根据步骤四得到的人声时频掩模M
vocal
通过差分的方法计算得到背景音乐的时频掩模;步骤六、将步骤五中得到的两个时频掩模与步骤二得到的语谱图进行点乘,得到分离出的人声语谱图和背景音乐语谱图;步骤七、对人声语谱图和背景音乐语谱图进行短时傅里叶逆变换,分别得到人声的时域数字语音信号和背景音乐的时域数字语音信号。2.根据权利要求1所述的单声道人声与背景音乐分离方法,其特征在于,步骤一中将时域模拟语音信号转化为时域数字语音信号的过程中,其采样频率满足香农采样定律;f
s
>2f
max
,f
s
表示采样频率,f
max
表示时域模拟语音信号的最高频率。3.根据权利要求1所述的单声道人声与背景音乐分离方法,其特征在于,所述步骤二的具体步骤如下:步骤2.1、将步骤一得到的时域数字语音信号切分成n个信号段,每个信号段的时间为20ms~40...

【专利技术属性】
技术研发人员:旷昊恒
申请(专利权)人:成都明杰科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1