一种音频处理方法和装置制造方法及图纸

技术编号：23788359 阅读：38 留言：0更新日期：2020-04-15 01:13

本申请公开了一种音频处理方法和装置，其中方法包括：利用定向音频采集设备输出的音频，对全向音频采集设备输出的音频进行自适应增益调节；对所述自适应增益调节的结果和所述定向音频采集设备的音频进行混音，输出混音结果。采用本发明专利技术，可以提高语音互动场景下的声音采集质量。

An audio processing method and device

全部详细技术资料下载

【技术实现步骤摘要】
一种音频处理方法和装置
本专利技术涉及声音采集技术，特别是涉及一种音频处理方法和装置。
技术介绍
现有的声音采集方案中，在多媒体教室教学场景下，通过多麦克风阵列完成授课时环境音的获取，通过无线定向麦克风完成授课时老师的声音获取，之后经过降噪和多路音频均衡模块以及混音模块，把老师的声音与环境音合成一路并输出。上述现有的声音采集方案中，通过音频均衡之后进行混音，可以一定程度上保证老师的声音清晰。但是，实际教学场景中，会存在老师和学生之间的语音互动，此时，不仅定向采集的老师声音属于重要声音，全向采集的环境音中的学生声音也很重要，需要具有一定的清晰度。本专利技术人通过研究分析发现：对于环境中存在的重要人声并伴随单调噪声的场景，上述方案由于仅是在混音前做了简单地音频均衡，对环境音中的重要人声并不进行有针对性的处理，因此，无法确保环境中重要人声的清晰度。由此可见，采用现有的声音采集方案，无法确保语音互动场景下重要声音的清晰度，进而无法满足语音互动场景下的声音采集质量。
技术实现思路
有鉴于此，...

【技术保护点】
1.一种音频处理方法，其特征在于，包括：/n利用定向音频采集设备输出的音频，对全向音频采集设备输出的音频进行自适应增益调节；/n对所述自适应增益调节的结果和所述定向音频采集设备的音频进行混音，输出混音结果。/n

【技术特征摘要】
1.一种音频处理方法，其特征在于，包括：
利用定向音频采集设备输出的音频，对全向音频采集设备输出的音频进行自适应增益调节；
对所述自适应增益调节的结果和所述定向音频采集设备的音频进行混音，输出混音结果。

2.根据权利要求1所述的方法，其特征在于，所述对全向音频采集设备输出的音频进行自适应增益调节包括：
利用所述定向音频采集设备输出的音频的能量平均值，对所述全向音频采集设备输出的音频进行自适应增益调节。

3.根据权利要求2所述的方法，其特征在于，所述对全向音频采集设备输出的音频进行自适应增益调节包括：
将所述定向音频采集设备和所述全向音频采集设备输出的音频分别转换为单声道音频；
在每个采样时刻，按照预设的滑动窗口，计算定向音频采集设备的单声道音频和全向音频采集设备的单声道音频分别在当前滑动窗口的能量平均值，并利用神经网络模型，从当前滑动窗口对应的全向音频采集设备的单声道音频中，分离出有效音频；
根据所述能量平均值，对所述有效音频进行增益自适应处理。

4.根据权利要求2所述的方法，其特征在于，所述对全向音频采集设备输出的音频进行自适应增益调节包括：
将所述定向音频采集设备和所述全向音频采集设备输出的音频分别转换为单声道音频；
利用第一语音回传设备输入的音频，作为回声消除的参考音频，分别对定向音频采集设备的所述单声道音频和全向音频采集设备的所述单声道音频进行回声消除；
在每个采样时刻，按照预设的滑动窗口，计算定向音频采集设备的消除回声后的音频在当前滑动窗口的能量平均值，以及全向音频采集设备的消除回声后的音频在当前滑动窗口的能量平均值，并利用神经网络模型，从当前滑动窗口对应的全向音频采集设备的消除回声后的音频中，分离出有效音频；根据所述能量平均值，对所述有效音频进行增益自适应处理。

5.根据权利要求3或4所述的方法，其特征在于，所述根据所述能量平均值，对所述有效音频进行增益自适应处理包括：
当定向音频采集设备对应的所述能量平均值大于预设的能量阈值时，如果定向音频采集设备对应的所述能量平均值与全向音频采集设备对应的所述能量平均值的比值小于预设的比例阈值，则对所述有效音频进行相应的能量抑制处理；
当定向音频采集设备对应的所述能量平均值不大于所述能量阈值时，如果全向音频采集设备对应的所述能量平均值大于预设的人耳可接受范围的最大能量阈值，则对所述有效音频进行相应的能量抑制处理，如果全向音频采集设备对应的所述能量平均值小于预设的人耳可接受范围的最小能量阈值，则对所述有效音频进行相应的能量增强处理。

6.根据权利要求3或4所述的方法，其特征在于，所述分离出有效音频包括：
对于当前滑动窗口对应的全向音频采集设备的单声道音频，或者当前滑动窗口对应的全向音频采集设备的消除回声后的音频，进行耳蜗滤波处理；
从经过所述耳蜗滤波处理后的音频中，提取出时域特征，所述时域特征包括梅尔倒谱系数MFCC、感知线性预测系数PLP以及幅度调制谱；
采用有监督的学习方式，将所述时域特征作为所述神经网络模型的输入，对所述神经网络模型进行训练，得到相应的模型参数；
基于所述模型参数，利用所述神经网络模型估计出时域上的二值掩蔽IBM；
利用所述二值掩蔽，对经过所述耳蜗滤波处理后的音频进行波形重构，提取出所述有效音频。

...

【专利技术属性】
技术研发人员：李冬，龙德平，柯常志，
申请(专利权)人：杭州海康慧影科技有限公司，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人