一种语音混音处理方法及装置制造方法及图纸

技术编号：10041689 阅读：165 留言：0更新日期：2014-05-14 12:29

本发明专利技术公开了一种语音混音处理方法及装置，用于实现对基于语音属性的语音的混音处理。所述方法包括：对接收到的语音信号进行解析，获得所述语音信号的信息，所述信息中包含所述语音信号的用户信息；将所述语音信号的用户信息与预设的用户信息对比，并将与所述预设的用户信息一致的用户信息所对应的语音信号确定为待混音的语音信号；对所述待混音的语音信号进行混音处理。采用本发明专利技术的方案，实现了多路混音系统中对语音信号进行混音的效果，预设用户为重要发言人，且要对预设用户进行优先混音处理，通过将重要发言人作为高优先级预先设定，并将预设的用户的发言内容通过混音处理清晰地播放出来，从而保证重要信息被多个用户同时听到。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及音频处理
，尤其涉及一种语音混音处理方法及装置。
技术介绍
近年来，随着通信网络技术的迅速发展，在线教育受到越来越多的关注，人们逐渐习惯从网络上获取知识，互联网教育整合了更多优秀教学资源，将资源分配到世界各个角落，对促进知识传播、教育公平起到推进作用。因此，促进互联网教育的配套软硬件设施成为重要的研究内容。在互联网教育中，音视频教育是即时教育的必须部分，尤其是语音，不论是一对一还是一对多教学，都会涉及到多人同时通话，也就是说，所有通话者的语音信号都可以被传送到其他通话方，而每一个通话者也都能够同时听到多个其他通话方的声音。这样一来，在教学中就需要进行混音处理，使得网络课堂上所有人都可同时听到当前所有通话者的声音。传统的混音方法是将正在讲话的通话者的所有语音信号线性叠加，然后取平均值。这样做的缺点是，叠加后的音频流可能会溢出，产生噪音，溢出的音频部分则需要进行滤波处理，这种方法虽然简单高效，但存在两方面的问题，首先是声音范围的最大值和最小值部分波形会被强行切断，造成较大波形失真，听觉上引起嘈杂，容易出现刺耳的爆破音，而随着同时通话者的人数增加，音频溢出的频率增大，采用这种叠加方式的混音一般不能突破4路输入音频流的限制，否则无法分辨出语音内容。其次，多路输入音频中音频流的能量强弱不同，由于人耳的掩蔽域效应，使得能量强的语音信号与能量弱的语音信号同时存在时，能量弱的语音信号无法被人耳...

【技术保护点】
一种语音混音处理方法，其特征在于，包括以下步骤：对接收到的语音信号进行解析，获得所述语音信号的信息，所述信息中包含所述语音信号的用户信息；将所述语音信号的用户信息与预设的用户信息对比，并将与所述预设的用户信息一致的用户信息所对应的语音信号确定为待混音的语音信号；对所述待混音的语音信号进行混音处理。

【技术特征摘要】
1.一种语音混音处理方法，其特征在于，包括以下步骤：
对接收到的语音信号进行解析，获得所述语音信号的信息，所述信息中包
含所述语音信号的用户信息；
将所述语音信号的用户信息与预设的用户信息对比，并将与所述预设的
用户信息一致的用户信息所对应的语音信号确定为待混音的语音信号；
对所述待混音的语音信号进行混音处理。
2.如权利要求1所述的方法，其特征在于，所述语音信号的信息包括：
用户信息、能量值以及数据内容，所述用户信息包括用户身份标识ID、用户
角色和用户发言次数。
3.如权利要求2所述的方法，其特征在于，所述将所述语音信号的用户
信息与预设的用户信息对比，并将与所述预设的用户信息一致的用户信息所
对应的语音信号确定为待混音的语音信号，包括：
将所述语音信号的用户身份标识ID与预设的用户身份标识ID对比，并将
与所述预设的用户身份标识ID一致的用户身份标识ID所对应的语音信号确定
为待混音的语音信号；或
将所述语音信号的用户角色与预设的用户角色对比，并将与所述预设的
用户角色一致的用户角色所对应的语音信号确定为待混音的语音信号。
4.如权利要求3所述的方法，其特征在于，所述将所述语音信号的用户
信息与预设的用户信息对比，并将与所述预设的用户信息一致的用户信息所
对应的语音信号确定为待混音的语音信号，还包括：
当所述语音信号的用户身份标识ID与预设的用户身份标识ID不一致，或
所述语音信号的用户角色与预设的用户角色不一致时，根据解析后获得的所
述语音信号的用户发言次数选择语音信号；
将选择的语音信号确定为待混音的语音信号。
5.如权利要求2-4任一项所述的方法，其特征在于，所述对所述待混音

\t的语音信号进行混音处理包括：
对所述待混音的语音信号进行归一化处理；
计算归一化后语音信号的动态因子；
根据所述动态因子对所述语音信号进行混音计算。
6.如权利要求5所述的方法，其特征在于，所述计算归一化后语音信号
的动态因子包括：
根据下列公式计算归一化后语音信号的动态因子：
r=(1-Ai.energy_Normalization)/p
其中，r为所述语音信号归一化后的动态因子，Ai.energy_Normalization为
第i个用户的语音信号归一化后的能量值，p为所述待混音的语音信号的个
数。
7.如权利要求6所述的方法，其特征在于，所述根据所述动态因子对所
述语音信号进行混音计算包括：
根据下列公式对所述语音信号进行混音计算：
Σi=1nr×Ai.datap]]>其中，Ai...

【专利技术属性】
技术研发人员：楼英明，魏洪钦，
申请(专利权)人：能力天空科技北京有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人