通话音频混音处理方法、装置、存储介质和计算机设备制造方法及图纸

技术编号：23894751 阅读：15 留言：0更新日期：2020-04-22 07:59

本申请涉及一种通话音频混音处理方法、装置、计算机可读存储介质和计算机设备，所述方法包括：获取参与通话的通话成员终端发送的通话音频；对各所述通话音频分别进行语音分析，确定与各所述通话成员终端对应的语音活跃度；所述语音活跃度用于反映所述通话成员参与通话的活跃程度；根据所述语音活跃度确定与各所述通话成员终端分别对应的语音调节参数；按照各所述通话成员终端分别对应的语音调节参数，对相应的通话音频进行调节得到调节音频，并基于各所述调节音频进行混音处理得到混合音频。本申请提供的方案可以提高语音通话质量。

全部详细技术资料下载

【技术实现步骤摘要】
通话音频混音处理方法、装置、存储介质和计算机设备
本申请涉及语音处理
，特别是涉及一种通话音频混音处理方法、装置、计算机可读存储介质和计算机设备。
技术介绍
随着计算机技术的发展，出现了语音处理技术，语音处理技术是对语音发生过程、语音信号分析、或语音识别等各种处理方式的总称，也称数字语音信号处理技术。语音处理技术的发展给人们的生活和工作都带来了很多便利。比如，用户可通过电信网络或互联网实现语音通话，如双人通话或多人通话等。在语音通话的过程中，各通话方利用终端进行语音接入，终端将各路通话音频发送到混音模块进行混音，混音后的信号再传输至终端，最终由扬声器等设备播放出来。可是在实际通话的过程中，发言人经常遇到来自不同与会方的干扰声导致通话效果不理想而被打断说话，其原因是不同的与会方所处的环境噪声不同，全部混音后效果不理想。针对这种情况，传统方案中对全混音方式进行了改进，通过选路混音的方式将一些音量不高、或噪声较多的声音完全不做混音，从而减少对发言人的干扰。虽然能起到一定的效果，但是由于选路策略通常比较单一，例如基于音量大小排序进行选路，对于一些录音采集音量较大的与会方（可能是背景噪声较大）比较容易被选入，而一些录音音量相对较低的与会方则有可能一直无法被选中，而其它方一直无法听到该与会方的声音，导致通话质量低。
技术实现思路
基于此，有必要针对用户在进行语音通话时通话质量低的技术问题，提供一种通话音频混音处理方法、装置、计算机可读存储介质和计算机设备。一种通话音频混音处理方法，包括：...

【技术保护点】
1.一种通话音频混音处理方法，包括：/n获取参与通话的通话成员终端发送的通话音频；/n对各所述通话音频分别进行语音分析，确定与各所述通话成员终端对应的语音活跃度；所述语音活跃度用于反映所述通话成员参与通话的活跃程度；/n根据所述语音活跃度确定与各所述通话成员终端分别对应的语音调节参数；/n按照各所述通话成员终端分别对应的语音调节参数，对相应的通话音频进行调节得到调节音频，并基于各所述调节音频进行混音处理得到混合音频。/n

【技术特征摘要】
1.一种通话音频混音处理方法，包括：
获取参与通话的通话成员终端发送的通话音频；
对各所述通话音频分别进行语音分析，确定与各所述通话成员终端对应的语音活跃度；所述语音活跃度用于反映所述通话成员参与通话的活跃程度；
根据所述语音活跃度确定与各所述通话成员终端分别对应的语音调节参数；
按照各所述通话成员终端分别对应的语音调节参数，对相应的通话音频进行调节得到调节音频，并基于各所述调节音频进行混音处理得到混合音频。

2.根据权利要求1所述的方法，其特征在于，所述获取参与通话的通话成员终端发送的通话音频，包括：
接收由参与通话的通话成员终端所发送的音频编码数据；所述音频编码数据通过采用与相应终端的终端性能匹配的编码方式，对采集得到的通话音频进行编码得到；
按照与各编码方式分别匹配的解码方式，对相应各个通话成员终端发送的音频编码数据进行解码，得到相应的通话音频。

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：
采用与各所述通话成员终端的终端性能匹配的编码方式，分别对所述混合音频进行编码，得到对应不同编码方式的混合编码语音；
按照各所述混合编码语音分别对应的编码方式，将各所述混合编码语音分别发送至与相应编码方式匹配的、且参与所述通话的通话成员终端；发送的所述混合编码语音用于指示所述通话成员终端采用与相应编码方式对应的解码方式，对所述混合编码语音进行解码，得到相应的混合音频。

4.根据权利要求1所述的方法，其特征在于，所述对各所述通话音频分别进行语音分析，确定与各所述通话成员终端对应的语音活跃度，包括：
将各通话音频分别划分成多于一帧的音频帧，并对各音频帧进行语音检测；
对于每路通话音频，确定所包括的音频帧中出现语音的语音帧的数量；
对于每路通话音频，根据所述通话音频中语音帧的数量与所述通话音频所包括音频帧的总数量，确定所述语音帧的占比；
根据所述语音帧的占比，确定与各所述通话成员终端对应的语音活跃度。

5.根据权利要求1所述的方法，其特征在于，所述对各所述通话音频分别进行语音分析，确定与各所述通话成员终端对应的语音活跃度，包括：
将各通话音频分别划分成多于一帧的音频帧，并对各音频帧进行语音检测；
确定所述音频帧中出现语音的语音帧，并确定各所述语音帧对应的能量值；
根据各所述通话音频所包括的语音帧中能量值大于等于能量阈值的有效语音帧的数量，确定与各所述通话成员终端对应的语音活跃度。

6.根据权利要求1所述的方法，其特征在于，所述对各所述通话音频分别进行语音分析，确定与各所述通话成员终端对应的语音活跃度，包括：
将各通话音频分别划分成多于一帧的音频帧，并计算各所述音频帧分别对应的单帧信噪比；
对于每路通话音频，对所述通话音频所包括的各音频帧分别对应的单帧信噪比进行加权求和，得到与所述通话音频对应的语音信噪比；
将各通话音频分别对应的语音信噪比，作为与各所述通话成员终端对应的语音活跃度。

7.根据权利要求1所述的方法，其特征在于，所述对各所述通话音频分别进行语音分析，确定与各所述通话成员终端对应的语音活跃度，包括：
将各通话音频分别划分成多于一帧的音频帧，并计算各所述音频帧分别对应的单帧信噪比；
所述根据所述语音活跃度确定与各所述通话成员终端分别对应的语音调节参数，包括：
对于每路通话音频，基于所述通话音频所包括的音频帧各自对应的单帧信噪比，确定各音频帧分别对应的语音调节参数；
所述按照各所述通话成员终端分别对应的语音调节参数，对相应的通话音频进行调节得到调节音频，包括：
对于每路通话音频，按照所述通话音频中各音频帧分别对应的语音调节参数，对各音频帧分别进行调节，得到与相应通话成员终端对应的调节音频。

8.根据权利要求1所述的方法，其特征在于，所述根据所述语音活跃度确定与各所述通话成员终端分别对应的语音调节参数，包括：
从各所述通话成员终端对应的语音活跃度中筛选出语音活跃最高值；
按照各所述通话成员终端对应的语音活跃度分别与所述语音活跃最高值间的对比值，确定各所述通话成员终端分别对应的语音调节参数；其中，通话成员终端对应的语音调节参数与相对应的所述对比值呈负相关。

9.根据权利要求6或7所述的方法，其特征在于，所述将各通话音频分别划分成多于一帧的音频帧，并计算各所述音频帧分别对应的单帧信噪比，包括：
对于每个通话成员各自对应的通话音频，分别将相应的通话音频划分成多于一帧的处于时域空间的音频帧；
将各音频帧从时域空间转换至频域空间得到对应的语音频谱，并确定各所述音频帧分别对应的语音频谱中所包括的多于一个的子带；
对于各音频帧中的各子带，分别计算所述子带对应的子带功率谱和噪声估计值，基于所述子带功率谱和噪声估计值，确定各所述子带对应的子带信噪比；
根据各所述音频帧所包括的子带分别对应的子带信噪比，计算各所述音频帧分别对应的单帧信噪比。

10.根据权利要求9所述的方法，其特征在于，所述对于各音频帧中的各子带，分别计算所述子带对应的子带功率谱和噪声估计值，包括：
对于各音频帧中的每个子带，分别基于所述子带所包括频点的频域复数值，确定与所述子带对应的子带功率谱；
对各所述子带功率谱分别进行平滑处理，得到相应的子带平滑功率谱；
从不同音频帧中对应相同子带序号的子带所对应的子带平滑功率谱中，筛选出最小值作为相应子带序号的各子带所对应的噪声初始值；
对于各音频帧中的每个子带，根据所述子带对应的子带平滑功率谱与噪声初始值，确定与相应子带对应的语音存在概率；
对于各音频帧中的每个子带，根据相应子带所对应的语音存在概率和子带功率谱，确定与相应子带对应的噪声估计值。

11.根据权利要求10所述的方法，其特征在于，所述对各所述子带功率谱分别进行平滑处理，得到相应的子带平滑功率谱，包括：
对于各音频帧中当前处理的当前帧中的当前子带，确定所述当前帧中与当前子带相邻的预设数量的相邻子带；
将所述相邻子带与所述当前子带...

【专利技术属性】
技术研发人员：梁俊斌，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人