多路语音的混音方法及系统技术方案

技术编号:20657382 阅读:42 留言:0更新日期:2019-03-23 08:46
本发明专利技术提供了一种多路语音的混音方法及相应的系统,首先根据音频数据流的持续性和语音能量,从形式上筛选出具有有效音频数据的语音通道作为活跃通道,然后根据每个活跃通道与其他活跃通道变化趋势的交错情况,从内容上进一步筛选出提供有价值的语音数据的活跃通道作为参与本次混音的语音通道;最后对选出的语音通到的音频数据流进行混音操作,得到混音数据。通过两次筛选,可以提高筛选参与混音的语音通道的精确度,在语音会议确保选中的语音通道均能提供有价值的语音数据、同时有价值的语音数据也不会被遗漏,从而能在语音会议的众多参与者中精确地选出有价值的发言者,以便准确、高效地为听众提供混音数据。

Mixing Method and System of Multiplex Speech

The invention provides a multi-channel voice mixing method and a corresponding system. Firstly, according to the persistence and voice energy of audio data stream, the voice channel with effective audio data is selected as an active channel formally, and then the valuable voice number is further screened from the content according to the alternation between each active channel and other active channels. According to the active channel as the voice channel to participate in this mixing; finally, the selected voice to the audio data stream for mixing operation, get the mixing data. Through two screening, we can improve the accuracy of screening the voice channels involved in mixing, ensure that the selected voice channels can provide valuable voice data, while valuable voice data will not be missed, so that valuable speakers can be accurately selected among the many participants in the voice conference, in order to provide accurate and efficient mixing data for the audience. \u3002

【技术实现步骤摘要】
多路语音的混音方法及系统
本专利技术属于语音会议
,特别涉及一种多路语音的混音方法及系统。
技术介绍
近年来,随着通信技术的发展,实时语音会话已经由双人会话模式向多人同步会话模式发展。多人会话的一个典型的应用就是语音会议,现代语音会议可以有多人同时进行沟通和交流,从而有效解决了传统电话会议对设备依赖性强、并且只能单向传递信息的问题。目前的语音会议多是直接根据能量、持续性等参数对语音通道进行排序,并选出排序靠前的语音通道、提取其语音数据进行混音,该方法可以排除大部分分辨率较低的语音数据。但针对语音会议而言,参与者在会议中的地位和关注度跟音量、时间等并不具有直接的联系,因此通过上述方法筛选出的语音通道可能并未真正涵盖所有有效的语音信息,并且可能混入了噪音等干扰信息,严重影响混音信息的有效性。
技术实现思路
为了解决上述技术问题,本专利技术提供了一种多路语音的混音方法及系统。本专利技术具体技术方案如下:本专利技术一方面提供了一种多路语音的混音方法,包括如下步骤:S1:对各语音通道输入的音频数据流进行提取和处理,选出具有有效音频数据的语音通道作为活跃通道;S2:为每个所述活跃通道查找与其他活跃通道音频变化趋势交错之处并分别进行统计,根据交错次数和每次交错的活跃通道的数量,选出参与本次混音的语音通道;S3:基于自适应归一化算法对本次参与混音的语音通道的音频数据流进行混音操作,得到混音数据。进一步地,步骤S1的具体方法如下:S1.1:对各语音通道输入的音频数据进行平滑处理,获得平滑的音频数据流;S1.2:对所述各语音通道输入的音频数据流的持续性D进行检测,并对各语音通道输入的音频数据流的语音能量E进行计算;S1.3:设定一个持续性阈值D0和一个能量阈值E0,将D>D0且E>E0的语音通道设为活跃通道,其余语音通道设为非活跃通道。进一步地,步骤S2的具体方法如下:S2.1:根据时间轴为每个活跃通道制作音频频谱;S2.2:对所有音频频谱进行比较,找出每个所述音频频谱中峰值和谷值出现的时间与其他音频频谱交错出现之处,并统计交错次数n;S2.3:设定一个交错次数阈值n0,将n>n0的音频频谱对应的活跃通道选为主通道、作为参与本次混音的语音通道,所述主通道的数量为n1。进一步地,步骤S2还包括如下步骤:S2.4:根据需要设置一个混音通道数量阈值N,且n1≤N≤活跃通道数量,n≤n0的音频频谱的数量为n2;当n1+n2≤N时,将所有n≤n0的音频频谱对应的活跃通道选为辅通道、作为参与本次混音的语音通道;当n1+n2>N时,对n≤n0的音频频谱进行统计,根据交错次数n计算P值,P=n/N;根据交错的音频频谱最多时的数量m计算R值,R=m/N,并据此计算各个音频频谱的PR值,PR=P*R=mn/N2;选出排名在前N-n1位的音频频谱对应的语音通道为辅通道,作为参与本次混音的语音通道。进一步地,步骤S3的具体方法如下:S3.1:选择一种混音策略,所述混音策略包括由服务器进行集中式混音,以及由终端进行分布式混音;S3.2:根据混音策略,由相应的设备基于自适应归一化算法对步骤S3选出的本次参与混音的语音通道的音频数据流进行混音操作,得到混音数据。进一步地,步骤S3.2的具体方法如下:当选择的混音策略是集中式混音时,由所述服务器直接对选出的本次参与混音的语音通道的音频数据流进行混音操作;当选择的混音策略是分布式混音时,由每台所述终端根据IP地址或信号强度进一步筛选出在本终端参与本次混音的语音通道,并进行混音操作。本专利技术另一方面提供了一种多路语音的混音系统,所述混音系统设在服务器上或和所述服务器通信连接的所有终端上,所述混音系统包括如下部分:音频平滑处理模块,用于对各语音通道输入的音频数据进行平滑处理,获得平滑的音频数据流;活跃通道设置模块,用于对所述各语音通道输入的音频数据流进行持续性检测和语音能量计算,并根据持续性和语音能量的结果选出具有有效音频数据的语音通道、并设为活跃通道,并将其他语音通道设为非活跃通道;音频分析筛选模块,用于为每个所述活跃通道查找与其他活跃通道音频变化趋势交错之处并分别进行统计,根据交错次数和每次交错的活跃通道的数量,选出参与本次混音的语音通道;音频合成模块,用于基于自适应归一化算法对本次参与混音的语音通道的音频数据流进行混音操作,得到混音数据。进一步地,所述活跃通道设置模块包括如下部分:参数统计单元,用于对所述各语音通道输入的音频数据流的持续性D进行检测,并对各语音通道输入的音频数据流的语音能量E进行计算;判断单元,用于设定一个持续性阈值D0和一个能量阈值E0,将D>D0且E>E0的语音通道设为活跃通道,其余语音通道设为非活跃通道。进一步地,所述音频分析筛选模块包括如下部分:音频频谱生成单元,用于根据时间轴为每个活跃通道制作音频频谱;主通道筛选单元,用于设置一个时长阈值t0,当一个音频频谱中相邻波峰区域或波谷区域之间的最小距离超过t0,即认为此处两个区域内的最高点或最低点为该两个区域的峰值或谷值,所述最小距离为前一区域的最末帧与后一区域的起始帧之间的距离;对所有音频频谱进行比较,找出每个所述音频频谱中峰值和谷值出现的时间与其他音频频谱交错出现之处,并统计交错次数n;设定一个交错次数阈值n0,将n>n0的音频频谱对应的活跃通道选为主通道、作为参与本次混音的语音通道,所述主通道的数量为n1;筛选策略判断单元,用于根据需要设置一个混音通道数量阈值N,且n1≤N≤活跃通道数量,n≤n0的音频频谱的数量为n2;当n1+n2≤N时,采用筛选策略一;当n1+n2>N时,采用筛选策略二;辅通道筛选单元,用于根据选择的筛选策略进行辅通道的筛选:当n1+n2≤N时,采用筛选策略一,将所有n≤n0的音频频谱对应的活跃通道选为辅通道、作为参与本次混音的语音通道;当n1+n2>N时,采用筛选策略二,对n≤n0的音频频谱进行统计,根据交错次数n计算P值,P=n/N;根据交错的音频频谱最多时的数量m计算R值,R=m/N,并据此计算各个音频频谱的PR值,PR=P*R=mn/N2;选出排名在前N-n1位的音频频谱对应的语音通道为辅通道,作为参与本次混音的语音通道。进一步地,当所述混音系统设在服务器上时,所述音频合成模块包括如下部分:集中式混音单元,用于基于自适应归一化算法、直接对选出的本次参与混音的语音通道的音频数据流进行混音操作;当所述混音系统设在终端上时,所述音频合成模块包括如下部分:自主筛选单元,用于根据IP地址或信号强度进一步筛选出在本终端参与本次混音的语音通道;分布式混音单元,用于基于自适应归一化算法、对选出的在本终端参与本次混音的语音通道的音频数据流进行混音操作。本专利技术的有益效果如下:本专利技术提供了一种多路语音的混音方法及相应的系统,首先根据音频数据流的持续性和语音能量,从形式上筛选出具有有效音频数据的语音通道作为活跃通道,然后根据每个活跃通道与其他活跃通道变化趋势的交错情况,从内容上进一步筛选出提供有价值的语音数据的活跃通道作为参与本次混音的语音通道;最后对选出的语音通到的音频数据流进行混音操作,得到混音数据。通过两次筛选,可以提高筛选参与混音的语音通道的精确度,在语音会议确保选中的语音通道均能提供有价值的语音数据、同时有价值的语音本文档来自技高网...

【技术保护点】
1.一种多路语音的混音方法,其特征在于,包括如下步骤:S1:对各语音通道输入的音频数据流进行提取和处理,选出具有有效音频数据的语音通道作为活跃通道;S2:为每个所述活跃通道查找与其他活跃通道音频变化趋势交错之处并分别进行统计,根据交错次数和每次交错的活跃通道的数量,选出参与本次混音的语音通道;S3:基于自适应归一化算法对本次参与混音的语音通道的音频数据流进行混音操作,得到混音数据。

【技术特征摘要】
1.一种多路语音的混音方法,其特征在于,包括如下步骤:S1:对各语音通道输入的音频数据流进行提取和处理,选出具有有效音频数据的语音通道作为活跃通道;S2:为每个所述活跃通道查找与其他活跃通道音频变化趋势交错之处并分别进行统计,根据交错次数和每次交错的活跃通道的数量,选出参与本次混音的语音通道;S3:基于自适应归一化算法对本次参与混音的语音通道的音频数据流进行混音操作,得到混音数据。2.如权利要求1所述的多路语音的混音方法,其特征在于,步骤S1的具体方法如下:S1.1:对各语音通道输入的音频数据进行平滑处理,获得平滑的音频数据流;S1.2:对所述各语音通道输入的音频数据流的持续性D进行检测,并对各语音通道输入的音频数据流的语音能量E进行计算;S1.3:设定一个持续性阈值D0和一个能量阈值E0,将D>D0且E>E0的语音通道设为活跃通道,其余语音通道设为非活跃通道。3.如权利要求1所述的多路语音的混音方法,其特征在于,步骤S2的具体方法如下:S2.1:根据时间轴为每个活跃通道制作音频频谱;S2.2:设置一个时长阈值t0,当一个音频频谱中相邻波峰区域或波谷区域之间的最小距离超过t0,即认为此处两个区域内的最高点或最低点为该两个区域的峰值或谷值,所述最小距离为前一区域的最末帧与后一区域的起始帧之间的距离;对所有音频频谱进行比较,找出每个所述音频频谱中峰值和谷值出现的时间与其他音频频谱交错出现之处,并统计交错次数n;S2.3:设定一个交错次数阈值n0,将n>n0的音频频谱对应的活跃通道选为主通道、作为参与本次混音的语音通道,所述主通道的数量为n1。4.如权利要求3所述的多路语音的混音方法,其特征在于,步骤S2还包括如下步骤:S2.4:根据需要设置一个混音通道数量阈值N,且n1≤N≤活跃通道数量,n≤n0的音频频谱的数量为n2;当n1+n2≤N时,将所有n≤n0的音频频谱对应的活跃通道选为辅通道、作为参与本次混音的语音通道;当n1+n2>N时,对n≤n0的音频频谱进行统计,根据交错次数n作为P值,P=n/N;根据交错的音频频谱最多时的数量m计算R值,R=m/N,并据此计算各个音频频谱的PR值,PR=P*R=mn/N2;选出排名在前N-n1位的音频频谱对应的语音通道为辅通道,作为参与本次混音的语音通道。5.如权利要求1所述的多路语音的混音方法,其特征在于,步骤S3的具体方法如下:S3.1:选择一种混音策略,所述混音策略包括由服务器进行集中式混音,以及由终端进行分布式混音;S3.2:根据混音策略,由相应的设备基于自适应归一化算法对步骤S3选出的本次参与混音的语音通道的音频数据流进行混音操作,得到混音数据。6.如权利要求5所述的多路语音的混音方法,其特征在于,步骤S3.2的具体方法如下:当选择的混音策略是集中式混音时,由所述服务器直接对选出的本次参与混音的语音通道的音频数据流进行混音操作;当选择的混音策略是分布式混音时,由每台所述终端根据IP地址或信号强度进一步筛选出在本终端参与本次混音的语音通道,并进行混音操作。7.一种多路语音的混音系统,其特征在于,所述混音系统设在服务器上或和所述服务器通信连接的所有终端上,所述混音系统包括如下部分:音频平滑处理模块(1),用于对...

【专利技术属性】
技术研发人员:韩冰
申请(专利权)人:中通天鸿北京通信科技股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1