基于语音类似度的混音方法技术

技术编号:11448334 阅读:110 留言:0更新日期:2015-05-13 20:34
本发明专利技术涉及基于语音类似度的混音方法,其对客户端输入的音频信号进行归一化处置,将音频信号分帧并进行时频变换,设置语音通道的目标电平,计算语音通道当前的电平大小,计算各语音通道的语音类似度,通过语音类似度和目标电平计算各语音通道的电平值,并根据各语音通道的电平值大小计算电平增益,得到电平提升后的音频频域数据,对音频频域数据进行叠加混音,最后用傅里叶反变换将音频频域数据转换为时域数据。语音类似度越大,对应的语音通道的电平值越大,如此可以保证混音中语音类似度越大的语音通道的音量就越大。

【技术实现步骤摘要】
基于语音类似度的混音方法
本专利技术涉及通信
,尤其涉及基于语音类似度的混音方法。
技术介绍
混音是将语音、音乐、音效等多种音源混合的处理过程,在音乐录音、音视频会议的相关应用中,占据重要位置,混音的好坏直接影响到产品的成功与否。在多输入多输出的会议混音场景中,目前常见的混音方法是直接在时域基于能量选择混音通道,箝位叠加混音,此方法在传统应用中,如没有噪声和杂音的固定终端环境下,有比较理想的效果,但若是在一个移动场景中,终端差异大,噪声、杂音等时刻变化,混音效果就大打折扣。并且,由于不同的客户端采集的音频信号能量大小差异较大,基于能量选择混音通道会排除声音小的客户端。
技术实现思路
针对现有技术的问题,本专利技术的目的在于提供一种基于语音类似度的混音方法,其通过计算语音类似度,将类似度高的才参加混音,对杂音、噪声有抑制作用。为实现上述目的,本专利技术采用如下技术方案:基于语音类似度的混音方法,包括如下步骤:步骤一:对从客户端输入的音频信号进行归一化处理;步骤二:计算各语音通道当前语音电平大小以获得各语音通道当前语音电平集合v∈{vi|i∈(0,C]},其中i为语音通道,vi为语音通道i的当前电平值,C为语音通道总数量;步骤三:对输入的音频信号进行分帧处理,并针对每个相应的客户端分帧后的各帧音频信号从时域变换到频域,得到各帧音频信号的音频频域数据;步骤四:计算出每个客户端对应语音通道的语音类似度γ;步骤五:判断各语音通道的语音类似度γ是否大于预设的固定门限值F,选择语音类似度γ大于固定门限值F的语音通道进入步骤六;步骤六:对各语音通道的语音类似度γ进行排序,选择语音类似度γ的排名前M的语音通道作为候选语音通道进入步骤七;M为候选语音通道的数量;步骤七:各语音通道根据其相应的语音类似度γ和总目标电平β,通过公式:i∈[0,M]计算出各候选语音通道的目标电平值;上述αi为候选语音通道i的目标电平值,γi为语候选音通道i的语音类似度;步骤八:根据各候选语音通道的电平值,通过公式i∈[0,M]计算出各个候选语音通道的电平增益,其中,gi为语音通道i电平增益,为上一次的电平增益,e为滤波器系数;步骤九:根据各候选语音通道的电平增益值,对候选语音通道通过公式:x(i,j)=gi*x(i,j),i∈[0,M]j∈[0,N]进行电平提升,其中j为频点编号,N为各帧内采样点总个数,x(i,j)表示第i个通道的第j个音频频域数据;步骤十:对各候选语音通道的音频频域数据进行叠加混音:i∈[0,M]j∈[0,N]k∈[0,C],其中k为当前语音输出通道,之后执行步骤十一;步骤十一:将叠加后的各帧音频频域数据从频域反变换到时域,对叠加后的音频信号进行反归一化处理并进行输出。进一步的,步骤七还包括如下步骤:对音频频域数据的电平值进行电平修正:i∈[0,M],其中为候选语音通道i上一次的电平值,d为滤波器系数。进一步的,步骤三通过傅里叶变换将各帧音频信号从时域变换到频域:X(e)=FFT(x(f)),f∈(0,N)为时域采样点序号,e∈(0,N)为频域采样点序号。更进一步的,步骤四包括如下子步骤:步骤a:根据公式E(e)=|X(e)|^2,e∈(0,N)计算音频频域数据的各频谱处的能量E(e);步骤b:根据公式a∈(0,N),统计音频频谱分布p,其中,ωa为固定值,对应各子频带权重系数,a为频域采样点;步骤c:根据公式a∈(0,N)计算音频频域数据的短时能量Es,b为滤波器更新系数,取值范围为[0,1],Ea为第a个频谱能量;步骤d:根据公式a∈(0,N)计算音频频域数据的长时能量El,h为滤波器更新系数,取值范围[0,1];步骤e:根据公式计算语音类似度γ,其中c为常量,取值范围为[0,1],e表示以e为底的指数函数,e=2.71828。进一步的,步骤十一通过傅里叶反变换将各帧音频信号的音频频域数据从频域反变换到时域:X(k,f)=IFFT(y(k,e))k∈(0,C)为当前输出通道,X(k,f)为最终时域混音数据。相比现有技术,本专利技术的有益效果在于:能适应多种类型的客户端,语音类似度越大,对应的语音通道的目标音量值就越大,由于杂音、噪音等的语音类似度很低,对应的目标音量就小,即使参与混音,对应的音量也很小,通常会被有效的语音淹没,对杂音、噪音有抑制作用;在频域完成混音,能防止有效电平大幅度减少。附图说明图1为本专利技术的基于语音类似度的混音方法的流程图。具体实施方式下面,结合附图以及具体实施方式,对本专利技术做进一步描述:如图1所示,本专利技术的基于语音类似度的混音方法,包括如下步骤:步骤s1:对每个客户端输出的音频信号进行归一化处理,将输入的音频信号均转换为单声道,并预设语音通道的总目标电平β;总目标电平β用于后续计算中设置混音输出的音量,用最后输出的混音音量接近设置的总目标电平β,可大可小,根据不同的应用可设置不同的目标电平值;对音频信号做归一化处理可以防止音频信号的格式不同对后续的计算产生影响,导致无法参与混音;步骤s2:计算各语音通道当前语音电平大小以获得各语音通道当前语音电平集合v∈{vi|i∈(0,C]},其中i为语音通道,vi为语音通道i的当前电平值,C为语音通道总数量;步骤s3:对输入的音频信号进行分帧处理,并针对每个相应的客户端分帧后的各帧音频信号从时域变换到频域,得到各帧音频信号的音频频域数据;若在时域叠加混音,会引入量化噪声,同时有效语音电平大幅度减少,本实施例在频域完成混音,克服了在时域混音带来的缺陷,减少量化噪音;在步骤s3种具体是通过傅里叶变换将各帧音频信号从时域变换到频域:X(e)=FFT(x(f)),f∈(0,N)为时域采样点序号,e∈(0,N)为频域采样点序号,N为各帧内采样点总个数。步骤s4:根据音频频域数据,计算出每个客户端对应语音通道的语音类似度γ;时频转换后得到音频数据,由此可得知各频谱处的能量大小,统计音频频谱分布,并根据采用的滤波器计算长时能量和短时能量得到语音类似度γ;其包括以下子步骤:步骤a:根据公式E(e)=|X(e)|^2,e∈(0,N)计算音频频域数据的各频谱处的能量E(e);步骤b:根据公式a∈(0,N),统计音频频谱分布p,其中,ωi为固定值,对应各子频带权重系数,a为频域采样点;步骤c:根据公式a∈(0,N)计算音频频域数据的短时能量Es,b为滤波器更新系数,取值范围为[0,1],Ea为第a个频谱能量;步骤d:根据公式a∈(0,N)计算音频频域数据的长时能量El,h为滤波器更新系数,取值范围[0,1];步骤e:根据公式计算语音类似度γ,其中c为常量,取值范围为[0,1],e表示以e为底的指数函数,e=2.71828。步骤s5:预设固定门限值F,判断各语音通道的语音类似度γ是否大于该固定门限值F,直到选择所有语音类似度γ大于固定门限值F的语音通道后进入步骤s6,如果语音通道的语音类似度γ小于门限值F,则不参与步骤s6的排序;通过步骤s5可以排除语音类似度γ过低的音频信号,如杂音、噪声,使得后续的混音效果更好;步骤s6:对各语音通道的语音类似度γ从大到小进行排序,选择语音类似度γ的排名为前M的语音通道作为候选语音通道进入步骤s7,步骤s5和步骤s6即是选择前M个语音类似度γ大于门本文档来自技高网...
基于语音类似度的混音方法

【技术保护点】
基于语音类似度的混音方法,其特征在于,包括如下步骤:步骤一:对从客户端输入的音频信号进行归一化处理;步骤二:计算各语音通道当前语音电平大小以获得各语音通道当前语音电平集合v∈{vi|i∈(0,C]},其中i为语音通道,vi为语音通道i的当前电平值,C为语音通道总数量;步骤三:对输入的音频信号进行分帧处理,并针对每个相应的客户端分帧后的各帧音频信号从时域变换到频域,得到各帧音频信号的音频频域数据;步骤四:计算出每个客户端对应语音通道的语音类似度γ;步骤五:对各语音通道的语音类似度γ进行排序,选择语音类似度γ大于预设的固定门限值F的语音通道进入步骤六;步骤六:对各语音通道的语音类似度γ进行排序,选择语音类似度γ的排名前M的语音通道作为候选语音通道进入步骤七;M为候选语音通道的数量;步骤七:各语音通道根据其相应的语音类似度γ和预设的总目标电平β,通过公式:αi=γiΣi=0Mγi*β,i∈[0,M]]]>计算出各候选语音通道的目标电平值;上述αi为候选语音通道i的目标电平值,γi为候选语音通道i的语音类似度;步骤八:根据各语音通道的电平值,通过公式计算出各个候选语音通道的电平增益,其中,gi为语音通道i电平增益,为上一次的电平增益,e为滤波器系数;步骤九:根据各候选语音通道的电平增益值,对候选语音通道通过公式:x(i,j)=gi*x(i,j),i∈[0,M]j∈[0,N]进行电平提升,其中j为频点编号,N为各帧内采样点总个数,x(i,j)表示第i个通道的第j个音频频域数据;步骤十:对各候选语音通道的音频频域数据进行叠加混音:yk,j=Σi=0Mxi≠k,j,i∈[0,M],j∈[0,N]k∈[0,C],]]>其中k为当前语音输出通道,之后执行步骤十一;步骤十一:将叠加后的各帧音频频域数据从频域反变换到时域,对叠加后的音频信号进行反归一化处理并进行输出。...

【技术特征摘要】
1.基于语音类似度的混音方法,其特征在于,包括如下步骤:步骤一:对从客户端输入的音频信号进行归一化处理;步骤二:计算各语音通道当前语音电平大小以获得各语音通道当前语音电平集合v∈{vi|i∈(0,C]},其中i为语音通道,vi为语音通道i的当前电平值,C为语音通道总数量;步骤三:对归一化的音频信号进行分帧处理,并针对每个相应的客户端分帧后的各帧音频信号从时域变换到频域,得到各帧音频信号的音频频域数据;包括通过傅里叶变换将各帧音频信号从时域变换到频域:X(e)=FFT(x(f)),f∈(0,N)为时域采样点序号,e∈(0,N)为频域采样点序号;步骤四:计算出每个客户端对应语音通道的语音类似度γ;包括如下子步骤:步骤a:根据公式E(e)=|X(e)|^2,e∈(0,N)计算音频频域数据的各频谱处的能量E(e);步骤b:根据公式统计音频频谱分布p,其中,ωa为固定值,对应各子频带权重系数,a为频域采样点;步骤c:根据公式计算音频频域数据的短时能量Es,b为滤波器更新系数,取值范围为[0,1],Ea为第a个频谱能量;步骤d:根据公式计算音频频域数据的长时能量El,h为滤波器更新系数,取值范围[0,1];步骤e:根据公式计算语音类似度γ,其中c为常量,取值范围为[0,1],e表示以e为底的指数函数,e=2.71828;步骤五:对各语音通道的语音类似度γ进行排序,选择语音类似度γ大于预设的固定门限值F的语音通道进入步骤六;步骤六:对各语音通道的语音...

【专利技术属性】
技术研发人员:付姝华
申请(专利权)人:深圳市云之讯网络技术有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1