一种语音通话的处理方法以及相关装置制造方法及图纸

技术编号:24211717 阅读:16 留言:0更新日期:2020-05-20 17:10
本申请公开了一种语音通话的处理方法以及相关装置,通过采集通话时间段内的语音信息;然后将所述语音信息输入神经网络模型,以获取用于指示所述语音信息是有效语音的概率的第一掩模值,并根据所述第一掩模值确定所述语音信息的信干比;进而根据所述信干比对所述语音信息进行处理,以得到用于输出的语音。从而实现了基于神经网络消除回声的过程,可以对多种场景下的回声进行消除;且由于神经网络中特征训练集的广泛性,保证了不同场景下回声消除过程的准确性,提高了用户体验。

A processing method of voice call and related devices

【技术实现步骤摘要】
一种语音通话的处理方法以及相关装置
本申请涉及计算机
,尤其涉及一种语音通话的处理方法以及相关装置。
技术介绍
随着移动终端相关技术的发展,越来越多的智能设备出现在人们的生活中,其中,通过智能设备进行进行语音通话尤为突出,然而由于通话过程中麦克风也会采集本端智能设备扬声器发出的声音或对端用户发出的声音,造成回声进而影响语音的准确性。一般,采用线性滤波器处理回声的方法进行回声消除,即对语音过程中每个频点进行固定滤波器系数的处理,以减小回声的影响。但是,基于线性处理对硬件采集的语音质量要求较高,若硬件语音采集的质量不佳会直接影响回声消除能力的强度,故上述方法适用范围有限,且对于一般的硬件设备容易漏掉回声残余或对有效的语音产生缺失,影响回声消除的准确性,降低了用户体验。
技术实现思路
有鉴于此,本申请提供一种语音通话处理的方法,可以有效消除语音通话过程中的回声,提高语音通话的准确性。本申请第一方面提供一种语音通话处理的方法,可以应用于包含语音通话功能的系统或程序中,具体包括:采集通话时间段内的语音信息;将所述语音信息输入神经网络模型,以获取第一掩模值,所述神经网络模型基于多个参考信号与多个采集信号进行特征训练所得,所述参考信号用于指示通话过程中的干扰因素,所述采集信号用于指示通话过程中的有效语音,所述第一掩模值用于指示所述语音信息是所述有效语音的概率;根据所述第一掩模值确定所述语音信息的信干比;根据所述信干比对所述语音信息进行处理,以得到用于输出的语音。可选的,在本申请一些可能的实现方式中,所述语音信息包括至少两个帧,针对所述至少两个帧中的第一帧,所述方法还包括:获取所述第一帧的延时信息;确定与所述第一帧的延时信息对应第一计算公式;所述根据所述第一掩模值确定所述语音信息的信干比,包括:将所述第一掩模值代入到所述第一计算公式,以确定所述第一帧的幅度谱;根据所述至少两个帧中每个第一帧的幅度谱确定所述语音信息的信干比。可选的,在本申请一些可能的实现方式中,所述方法还包括:获取当前时刻的参考信号与当前时刻的采集信号,并确定相关度;所述将所述第一掩模值代入到所述第一计算公式,以确定所述第一帧的幅度谱,包括:根据所述第一帧的延时信息确定延时状态,所述延时状态包括延时稳定和延时波动;根据所述相关度确定不同延时状态下所述第一帧对应的所述第一计算公式。可选的,在本申请一些可能的实现方式中,根据所述第一帧的延时信息确定延时状态,包括:若所述第一帧与相邻帧的延时差值小于延时阈值,则确定所述多个帧的延时状态为延时稳定;若所述第一帧与所述相邻帧的延时差值大于或等于所述延时阈值,则确定所述多个帧的延时状态为延时波动。可选的,在本申请一些可能的实现方式中,所述若所述第一帧与所述相邻帧的延时差值大于或等于所述延时阈值,则确定所述多个帧的延时状态为延时波动,包括:确定第二帧的延时信息;若所述第二帧的延时信息大于或等于所述延时阈值,则确定预设范围内多个帧的延时信息,所述预设范围包括所述第一帧和所述第二帧。可选的,在本申请一些可能的实现方式中,所述采集通话时间段内的语音信息之后,所述方法还包括:将所述语音信息进行傅里叶变换,以使得所述语音信息由时域变换到频域;对变换后的所述语音信息进行线性滤波处理,以得到线性输出。可选的,在本申请一些可能的实现方式中,所述方法还包括:确定第三帧线性滤波处理过程中的滤波器系数,所述第三帧在所述第一帧和所述第二帧之前;根据所述滤波器系数确定滤波估计差值;根据所述滤波估计差值对所述滤波器系数进行更新,以得到所述第四帧的模拟回声,所述第四帧为所述第三帧的下一帧。可选的,在本申请一些可能的实现方式中,所述方法还包括:基于所述相关度对所述模拟回声进行处理,以得到第二掩模值;所述根据所述第一掩模值确定所述语音信息的信干比,包括:根据所述第一掩模值和所述第二掩模值获取所述语音信息的信干比。可选的,在本申请一些可能的实现方式中,所述对所述语音信息进行非线性处理,以得到第二掩模值,包括:确定所述语音信息中的多个频点;将所述模拟回声与所述多个频点进行对应,以得到每个频点中所述模拟回声的分布比例;根据所述分布比例确定所述第二掩模值。可选的,在本申请一些可能的实现方式中,所述根据所述第一掩模值和所述第二掩模值获取所述语音信息的信干比,包括:基于第二计算公式对所述第一掩模值和所述第二掩模值进行计算,以得到幅度谱;根据所述幅度谱和所述语音信息获取后验信干比;根据所述后验信干比获取先验信干比;根据所述后验信干比和所述先验信干比确定所述语音信息的后验概率;所述根据所述信干比对所述语音信息进行处理,以得到用于输出的语音,包括:根据所述后验信干比、所述先验信干比和所述后验概率确定用于指示所述干扰因素的抑制因子;根据所述抑制因子对所述语音信息进行处理,以得到用于输出的语音。可选的,在本申请一些可能的实现方式中,所述神经网络模型包括循环神经网络模型、深度神经网络模型或卷积神经网络模型。本申请第二方面提供一种语音通话处理的装置,包括:采集单元,用于采集通话时间段内的语音信息;神经网络单元,用于将所述语音信息输入神经网络模型,以获取第一掩模值,所述神经网络模型基于多个参考信号与多个采集信号进行特征训练所得,所述参考信号用于指示通话过程中的干扰因素,所述采集信号用于指示通话过程中的有效语音,所述第一掩模值用于指示所述语音信息是所述有效语音的概率;确定单元,用于根据所述第一掩模值确定所述语音信息的信干比;处理单元,用于根据所述信干比对所述语音信息进行处理,以得到用于输出的语音。可选的,在本申请一些可能的实现方式中,所述语音信息包括至少两个帧,针对所述至少两个帧中的第一帧,所述采集单元,还用于获取所述第一帧的延时信息;所述采集单元,还用于确定与所述第一帧的延时信息对应第一计算公式;所述确定单元,具体用于将所述第一掩模值代入到所述第一计算公式,以确定所述第一帧的幅度谱;所述确定单元,具体用于根据所述至少两个帧中每个第一帧的幅度谱确定所述语音信息的信干比。可选的,在本申请一些可能的实现方式中,所述确定单元,还用于获取当前时刻的参考信号与当前时刻的采集信号,并确定相关度;所述确定单元,具体用于根据所述第一帧的延时信息确定延时状态,所述延时状态包括延时稳定和延时波动;所述确定单元,具体用于根据所述相关度确定不同延时状态下所述第一帧对应的所述第一计算公式。可选的,在本申请一些可能的实现方式中,所述确定单元,具体用于若所述第一帧与相邻帧的延时差值小于延时阈值,则确定所述多个帧的延时状态为延时稳定;所述确定单元,具体用于若所述本文档来自技高网...

【技术保护点】
1.一种语音通话的处理方法,其特征在于,包括:/n采集通话时间段内的语音信息;/n将所述语音信息输入神经网络模型,以获取第一掩模值,所述神经网络模型基于多个参考信号与多个采集信号进行特征训练所得,所述参考信号用于指示通话过程中的干扰因素,所述采集信号用于指示通话过程中的有效语音,所述第一掩模值用于指示所述语音信息是所述有效语音的概率;/n根据所述第一掩模值确定所述语音信息的信干比;/n根据所述信干比对所述语音信息进行处理,以得到用于输出的语音。/n

【技术特征摘要】
1.一种语音通话的处理方法,其特征在于,包括:
采集通话时间段内的语音信息;
将所述语音信息输入神经网络模型,以获取第一掩模值,所述神经网络模型基于多个参考信号与多个采集信号进行特征训练所得,所述参考信号用于指示通话过程中的干扰因素,所述采集信号用于指示通话过程中的有效语音,所述第一掩模值用于指示所述语音信息是所述有效语音的概率;
根据所述第一掩模值确定所述语音信息的信干比;
根据所述信干比对所述语音信息进行处理,以得到用于输出的语音。


2.根据权利要求1所述的方法,其特征在于,所述语音信息包括至少两个帧,针对所述至少两个帧中的第一帧,所述方法还包括:
获取所述第一帧的延时信息;
确定与所述第一帧的延时信息对应第一计算公式;
所述根据所述第一掩模值确定所述语音信息的信干比,包括:
将所述第一掩模值代入到所述第一计算公式,以确定所述第一帧的幅度谱;
根据所述至少两个帧中每个第一帧的幅度谱确定所述语音信息的信干比。


3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
获取当前时刻的参考信号与当前时刻的采集信号,并确定相关度;
所述将所述第一掩模值代入到所述第一计算公式,以确定所述第一帧的幅度谱,包括:
根据所述第一帧的延时信息确定延时状态,所述延时状态包括延时稳定和延时波动;
根据所述相关度确定不同延时状态下所述第一帧对应的所述第一计算公式。


4.根据权利要求3所述的方法,其特征在于,所述根据所述第一帧的延时信息确定延时状态,包括:
若所述第一帧与相邻帧的延时差值小于延时阈值,则确定所述多个帧的延时状态为延时稳定;
若所述第一帧与所述相邻帧的延时差值大于或等于所述延时阈值,则确定所述多个帧的延时状态为延时波动。


5.根据权利要求4所述的方法,其特征在于,所述若所述第一帧与所述相邻帧的延时差值大于或等于所述延时阈值,则确定所述多个帧的延时状态为延时波动,包括:
确定第二帧的延时信息;
若所述第二帧的延时信息大于或等于所述延时阈值,则确定预设范围内多个帧的延时信息,所述预设范围包括所述第一帧和所述第二帧。


6.根据权利要求1-5任一项所述的方法,其特征在于,所述采集通话时间段内的语音信息之后,所述方法还包括:
将所述语音信息进行傅里叶变换,以使得所述语音信息由时域变换到频域;
对变换后的所述语音信息进行线性滤波处理,以得到线性输出。


7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
确定第三帧线性滤波处理过程中的滤波器系数,所述第三帧在所述第一帧和所述第二帧之前;
根据所述滤波器系数确定滤波估计差值;
根据所述滤波估计差值对所述滤波器系数进行更新,以得到第四帧的模拟回声,所述第四帧为所述第三帧的下一帧。


8.根据权利要求7所述的方法,其特征在于,所述方法还包括:
基于所述相关度对所述模拟回声进行处理,以得到第二掩模值;
所...

【专利技术属性】
技术研发人员:吴伟余涛方雪飞
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1