一种语音混音处理方法及装置制造方法及图纸

技术编号:10041689 阅读:165 留言:0更新日期:2014-05-14 12:29
本发明专利技术公开了一种语音混音处理方法及装置,用于实现对基于语音属性的语音的混音处理。所述方法包括:对接收到的语音信号进行解析,获得所述语音信号的信息,所述信息中包含所述语音信号的用户信息;将所述语音信号的用户信息与预设的用户信息对比,并将与所述预设的用户信息一致的用户信息所对应的语音信号确定为待混音的语音信号;对所述待混音的语音信号进行混音处理。采用本发明专利技术的方案,实现了多路混音系统中对语音信号进行混音的效果,预设用户为重要发言人,且要对预设用户进行优先混音处理,通过将重要发言人作为高优先级预先设定,并将预设的用户的发言内容通过混音处理清晰地播放出来,从而保证重要信息被多个用户同时听到。

【技术实现步骤摘要】

本专利技术涉及音频处理
,尤其涉及一种语音混音处理方法及装置
技术介绍
近年来,随着通信网络技术的迅速发展,在线教育受到越来越多的关注,人们逐渐习惯从网络上获取知识,互联网教育整合了更多优秀教学资源,将资源分配到世界各个角落,对促进知识传播、教育公平起到推进作用。因此,促进互联网教育的配套软硬件设施成为重要的研究内容。在互联网教育中,音视频教育是即时教育的必须部分,尤其是语音,不论是一对一还是一对多教学,都会涉及到多人同时通话,也就是说,所有通话者的语音信号都可以被传送到其他通话方,而每一个通话者也都能够同时听到多个其他通话方的声音。这样一来,在教学中就需要进行混音处理,使得网络课堂上所有人都可同时听到当前所有通话者的声音。传统的混音方法是将正在讲话的通话者的所有语音信号线性叠加,然后取平均值。这样做的缺点是,叠加后的音频流可能会溢出,产生噪音,溢出的音频部分则需要进行滤波处理,这种方法虽然简单高效,但存在两方面的问题,首先是声音范围的最大值和最小值部分波形会被强行切断,造成较大波形失真,听觉上引起嘈杂,容易出现刺耳的爆破音,而随着同时通话者的人数增加,音频溢出的频率增大,采用这种叠加方式的混音一般不能突破4路输入音频流的限制,否则无法分辨出语音内容。其次,多路输入音频中音频流的能量强弱不同,由于人耳的掩蔽域效应,使得能量强的语音信号与能量弱的语音信号同时存在时,能量弱的语音信号无法被人耳有效识别,因此,在实际的多人语音应用中,当多个人同时发言时,通常只有少数音量大的语音可以被人耳有效识别。本专利技术的专利技术人发现,在实际的大规模直播教学系统中,通常包括教师、助教、参与人和听众。其中,教师是一直发言、教师的话是需要一直保留的,而助教是偶尔插话,但助教的话也是需要一直保留的。参与人最好的情况则是需要发言的时候才让播放出来,不发言的时候则不进行处理。同时也要考虑一种“重叠”的情况,即多人同时发言。采用目前的混音处理方法对大规模直播教学系统中的语音进行处理时,通常有以下缺点:教学过程中,教师和助教的声音会起到提示或引导性作用,他们的声音应该确保被课堂上所有的听众清楚听到,因此更加重要,但是,采用目前的混音处理方法,在混音后,无法保证教师和助教的声音被听众接收到,造成语音信号的丢失。
技术实现思路
本专利技术实施例提供一种语音混音处理方法及装置,用于实现对基于语音属性的语音的混音处理。一种语音混音处理方法,包括以下步骤:对接收到的语音信号进行解析,获得所述语音信号的信息,所述信息中包含所述语音信号的用户信息;将所述语音信号的用户信息与预设的用户信息对比,并将与所述预设的用户信息一致的用户信息所对应的语音信号确定为待混音的语音信号;对所述待混音的语音信号进行混音处理。本专利技术实施例的一些有益效果可以包括:实现了多路混音系统中对语音信号进行混音的效果,预设用户为重要发言人,且要对预设用户进行优先混音处理,通过将重要发言人作为高优先级预先设定,并将预设的用户的发言内容通过混音处理清晰地播放出来,从而保证重要信息被多个用户同时听到。所述语音信号的信息包括:用户信息、能量值以及数据内容,所述用户信息包括用户身份标识ID、用户角色和用户发言次数。本专利技术实施例的一些有益效果可以包括:根据语音信号的信息所包含的信息内容确定需要进行混音处理的语音信号,从而对重要发言人的发言内容进行混音,确保重要信息被多个用户同时听到。所述将所述语音信号的用户信息与预设的用户信息对比,并将与所述预设的用户信息一致的用户信息所对应的语音信号确定为待混音的语音信号,包括:将所述语音信号的用户身份标识ID与预设的用户身份标识ID对比,并将与所述预设的用户身份标识ID一致的用户身份标识ID所对应的语音信号确定为待混音的语音信号;或将所述语音信号的用户角色与预设的用户角色对比,并将与所述预设的用户角色一致的用户角色所对应的语音信号确定为待混音的语音信号。本专利技术实施例的一些有益效果可以包括:将语音信号的用户身份标识ID或者用户角色与预设的用户身份标识ID或用户角色进行对比,准确地判断所接收到的语音信号是否为预设用户的语音信号,若语音信号的用户ID或者用户角色与预设的用户ID或用户角色一致,则说明该语音信号为预设用户的语音信号,通过确定预设用户的语音信号,可将重要的语音信号作为高优先级进行混音,进而保证重要的信息被多个用户同时听到。所述将所述语音信号的用户信息与预设的用户信息对比,并将与所述预设的用户信息一致的用户信息所对应的语音信号确定为待混音的语音信号,还包括:当所述语音信号的用户身份标识ID与预设的用户身份标识ID不一致,或所述语音信号的用户角色与预设的用户角色不一致时,根据解析后获得的所述语音信号的用户发言次数选择语音信号;将选择的语音信号确定为待混音的语音信号。本专利技术实施例的一些有益效果可以包括:根据用户发言次数将不经常说话的人作为优先级别,即使发言人偶尔插话,也能保证语音信息不被丢失,发言内容被听众清楚听到。所述对所述待混音的语音信号进行混音处理包括:对所述待混音的语音信号进行归一化处理;计算归一化后语音信号的动态因子;根据所述动态因子对所述语音信号进行混音计算。本专利技术实施例的一些有益效果可以包括:根据语音信号的能量值及属性来进行混音,将语音信号归一化,从而获得稳定的音量,避免出现信号溢出导致的噪音和刺耳声音,进一步改善听觉效果。所述计算归一化后语音信号的动态因子包括:根据下列公式计算归一化后语音信号的动态因子:r=(1-Ai.energy_Normalization)/p,其中,r为所述语音信号归一化后的动态因子,Ai.energy_Normalization为第i个用户的语音信号归一化后的能量值,p为所述待混音的语音信号的个数。本专利技术实施例的一些有益效果可以包括:根据语音信号归一化后的动态因子,对语音信号进行混音计算,从而获取稳定的音量,改善听觉效果。所述根据所述动态因子对所述语音信号进行混音计算包括:根据下列公式对所述语音信号进行混音计算:Σi=1nr×Ai.datap]]>其中,Ai.data为第i个用户的语音信号的的数据内容,n为所述接收到的语音信号的个数。本专利技术实施例的一些有益效果可以包括:对特定角色及不经常说话的发言人的语音内容进行混音处理,本文档来自技高网
...

【技术保护点】
一种语音混音处理方法,其特征在于,包括以下步骤:对接收到的语音信号进行解析,获得所述语音信号的信息,所述信息中包含所述语音信号的用户信息;将所述语音信号的用户信息与预设的用户信息对比,并将与所述预设的用户信息一致的用户信息所对应的语音信号确定为待混音的语音信号;对所述待混音的语音信号进行混音处理。

【技术特征摘要】
1.一种语音混音处理方法,其特征在于,包括以下步骤:
对接收到的语音信号进行解析,获得所述语音信号的信息,所述信息中包
含所述语音信号的用户信息;
将所述语音信号的用户信息与预设的用户信息对比,并将与所述预设的
用户信息一致的用户信息所对应的语音信号确定为待混音的语音信号;
对所述待混音的语音信号进行混音处理。
2.如权利要求1所述的方法,其特征在于,所述语音信号的信息包括:
用户信息、能量值以及数据内容,所述用户信息包括用户身份标识ID、用户
角色和用户发言次数。
3.如权利要求2所述的方法,其特征在于,所述将所述语音信号的用户
信息与预设的用户信息对比,并将与所述预设的用户信息一致的用户信息所
对应的语音信号确定为待混音的语音信号,包括:
将所述语音信号的用户身份标识ID与预设的用户身份标识ID对比,并将
与所述预设的用户身份标识ID一致的用户身份标识ID所对应的语音信号确定
为待混音的语音信号;或
将所述语音信号的用户角色与预设的用户角色对比,并将与所述预设的
用户角色一致的用户角色所对应的语音信号确定为待混音的语音信号。
4.如权利要求3所述的方法,其特征在于,所述将所述语音信号的用户
信息与预设的用户信息对比,并将与所述预设的用户信息一致的用户信息所
对应的语音信号确定为待混音的语音信号,还包括:
当所述语音信号的用户身份标识ID与预设的用户身份标识ID不一致,或
所述语音信号的用户角色与预设的用户角色不一致时,根据解析后获得的所
述语音信号的用户发言次数选择语音信号;
将选择的语音信号确定为待混音的语音信号。
5.如权利要求2-4任一项所述的方法,其特征在于,所述对所述待混音

\t的语音信号进行混音处理包括:
对所述待混音的语音信号进行归一化处理;
计算归一化后语音信号的动态因子;
根据所述动态因子对所述语音信号进行混音计算。
6.如权利要求5所述的方法,其特征在于,所述计算归一化后语音信号
的动态因子包括:
根据下列公式计算归一化后语音信号的动态因子:
r=(1-Ai.energy_Normalization)/p
其中,r为所述语音信号归一化后的动态因子,Ai.energy_Normalization为
第i个用户的语音信号归一化后的能量值,p为所述待混音的语音信号的个
数。
7.如权利要求6所述的方法,其特征在于,所述根据所述动态因子对所
述语音信号进行混音计算包括:
根据下列公式对所述语音信号进行混音计算:
Σi=1nr×Ai.datap]]>其中,Ai...

【专利技术属性】
技术研发人员:楼英明魏洪钦
申请(专利权)人:能力天空科技北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1