基于语音类似度的混音方法技术

技术编号：11448334 阅读：110 留言：0更新日期：2015-05-13 20:34

本发明专利技术涉及基于语音类似度的混音方法，其对客户端输入的音频信号进行归一化处置，将音频信号分帧并进行时频变换，设置语音通道的目标电平，计算语音通道当前的电平大小，计算各语音通道的语音类似度，通过语音类似度和目标电平计算各语音通道的电平值，并根据各语音通道的电平值大小计算电平增益，得到电平提升后的音频频域数据，对音频频域数据进行叠加混音，最后用傅里叶反变换将音频频域数据转换为时域数据。语音类似度越大，对应的语音通道的电平值越大，如此可以保证混音中语音类似度越大的语音通道的音量就越大。

全部详细技术资料下载

【技术实现步骤摘要】
基于语音类似度的混音方法
本专利技术涉及通信
，尤其涉及基于语音类似度的混音方法。
技术介绍
混音是将语音、音乐、音效等多种音源混合的处理过程，在音乐录音、音视频会议的相关应用中，占据重要位置，混音的好坏直接影响到产品的成功与否。在多输入多输出的会议混音场景中，目前常见的混音方法是直接在时域基于能量选择混音通道，箝位叠加混音，此方法在传统应用中，如没有噪声和杂音的固定终端环境下，有比较理想的效果，但若是在一个移动场景中，终端差异大，噪声、杂音等时刻变化，混音效果就大打折扣。并且，由于不同的客户端采集的音频信号能量大小差异较大，基于能量选择混音通道会排除声音小的客户端。
技术实现思路
针对现有技术的问题，本专利技术的目的在于提供一种基于语音类似度的混音方法，其通过计算语音类似度，将类似度高的才参加混音，对杂音、噪声有抑制作用。为实现上述目的，本专利技术采用如下技术方案：基于语音类似度的混音方法，包括如下步骤：步骤一：对从客户端输入的音频信号进行归一化处理；步骤二：计算各语音通道当前语音电平大小以获得各语音通道当前语音电平集合v∈{vi|i∈(0,C]}，其中i为语音通道，vi为语音通道i的当前电平值，C为语音通道总数量；步骤三：对输入的音频信号进行分帧处理，并针对每个相应的客户端分帧后的各帧音频信号从时域变换到频域，得到各帧音频信号的音频频域数据；步骤四：计算出每个客户端对应语音通道的语音类似度γ；步骤五：判断各语音通道的语音类似度γ是否大于预设的固定门限值F，选择语音类似度γ大于固定门限值F的语音通道进入步骤六；步骤六：对各语音通道的语音类似度γ进行排序...
基于语音类似度的混音方法

【技术保护点】
基于语音类似度的混音方法，其特征在于，包括如下步骤：步骤一：对从客户端输入的音频信号进行归一化处理；步骤二：计算各语音通道当前语音电平大小以获得各语音通道当前语音电平集合v∈{vi|i∈(0,C]}，其中i为语音通道，vi为语音通道i的当前电平值，C为语音通道总数量；步骤三：对输入的音频信号进行分帧处理，并针对每个相应的客户端分帧后的各帧音频信号从时域变换到频域，得到各帧音频信号的音频频域数据；步骤四：计算出每个客户端对应语音通道的语音类似度γ；步骤五：对各语音通道的语音类似度γ进行排序，选择语音类似度γ大于预设的固定门限值F的语音通道进入步骤六；步骤六：对各语音通道的语音类似度γ进行排序，选择语音类似度γ的排名前M的语音通道作为候选语音通道进入步骤七；M为候选语音通道的数量；步骤七：各语音通道根据其相应的语音类似度γ和预设的总目标电平β，通过公式：αi=γiΣi=0Mγi*β,i∈[0,M]]]>计算出各候选语音通道的目标电平值；上述αi为候选语音通道i的目标电平值，γi为候选语音通道i的语音类似度；步骤八：根...

【技术特征摘要】
1.基于语音类似度的混音方法，其特征在于，包括如下步骤：步骤一：对从客户端输入的音频信号进行归一化处理；步骤二：计算各语音通道当前语音电平大小以获得各语音通道当前语音电平集合v∈{vi|i∈(0,C]}，其中i为语音通道，vi为语音通道i的当前电平值，C为语音通道总数量；步骤三：对归一化的音频信号进行分帧处理，并针对每个相应的客户端分帧后的各帧音频信号从时域变换到频域，得到各帧音频信号的音频频域数据；包括通过傅里叶变换将各帧音频信号从时域变换到频域：X(e)＝FFT(x(f))，f∈(0,N)为时域采样点序号，e∈(0,N)为频域采样点序号；步骤四：计算出每个客户端对应语音通道的语音类似度γ；包括如下子步骤：步骤a：根据公式E(e)＝|X(e)|^2,e∈(0,N)计算音频频域数据的各频谱处的能量E(e)；步骤b：根据公式统计音频频谱分布p，其中，ωa为固定值，对应各子频带权重系数，a为频域采样点；步骤c：根据公式计算音频频域数据的短时能量Es，b为滤波器更新系数，取值范围为[0，1]，Ea为第a个频谱能量；步骤d：根据公式计算音频频域数据的长时能量El，h为滤波器更新系数，取值范围[0，1]；步骤e：根据公式计算语音类似度γ，其中c为常量，取值范围为[0，1]，e表示以e为底的指数函数，e＝2.71828；步骤五：对各语音通道的语音类似度γ进行排序，选择语音类似度γ大于预设的固定门限值F的语音通道进入步骤六；步骤六：对各语音通道的语音...

【专利技术属性】
技术研发人员：付姝华，
申请(专利权)人：深圳市云之讯网络技术有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人