一种语音处理方法、装置、电子设备和可读介质制造方法及图纸

技术编号：33080640 阅读：73 留言：0更新日期：2022-04-15 10:33

本申请涉及一种语音处理方法、装置、电子设备和可读介质。该方法包括：获取待处理语音帧的频谱系数；根据待处理语音帧的频谱系数进行声门增益计算，得到第一增益，第一增益对应于待处理语音帧的声门特征；根据待处理语音帧的频谱系数进行激励增益计算，得到第二增益，第二增益对应于待处理语音帧的激励信号；根据待处理语音帧的频谱系数进行补偿预测，得到控制系数，控制系数是根据待处理音频帧的频谱系数的能量确定的；根据第一增益、第二增益和控制系数，对待处理语音帧进行增益控制，得到目标语音帧。该方法能够在降噪过程中针对人声部分进行处理，而不再需要针对各类噪声进行训练，因此，从而降低了训练数据的完备性的影响，提升降噪效果。提升降噪效果。提升降噪效果。

全部详细技术资料下载

【技术实现步骤摘要】
一种语音处理方法、装置、电子设备和可读介质

[0001]本申请涉及计算机
，尤其涉及一种语音处理方法、装置、电子设备和可读介质。

技术介绍

[0002]随着计算机技术的发展，出现了各类语音通信或者语音控制技术。通过此类技术允许用户进行远距离沟通或者可以提高人机互动的效率。在现实环境中，用户在所在的周遭环境中时麦克风等设备会采集到的各类环境噪音，并且对语音交流的质量产生不同程度地影响。因此，语音增强成为一个重要的课题。
[0003]在相关的技术中，对含噪声的语音音频采用深度学习的方法学习信号特征，从而预测出语音成分和噪声成分的占比，再根据预测的结果对含噪语音进行增强，来达到降噪的效果。
[0004]然而，在上述方案中，需要针对各类噪声收集训练数据来训练模型，从而使得训练处的模型能够处理训练数据中所涵盖的噪声类型，因此模型的处理效果受到训练数据的完备性的影响，在面对训练数据中没有的情况时，降噪效果差。

技术实现思路

[0005]基于上述技术问题，本申请提供一种语音处理方法、装置、电子设备和可...

【技术保护点】

【技术特征摘要】
1.一种语音处理方法，其特征在于，包括：获取待处理语音帧的频谱系数；根据所述待处理语音帧的频谱系数进行声门增益计算，得到第一增益，所述第一增益对应于所述待处理语音帧的声门特征；根据所述待处理语音帧的频谱系数进行激励增益计算，得到第二增益，所述第二增益对应于所述待处理语音帧的激励信号；根据所述待处理语音帧的频谱系数进行补偿预测，得到控制系数，所述控制系数是根据所述待处理音频帧的频谱系数的能量确定的；根据所述第一增益、所述第二增益和所述控制系数，对所述待处理语音帧进行增益控制，得到目标语音帧。2.根据权利要求1所述的方法，其特征在于，所述根据所述待处理语音帧的频谱系数进行声门增益计算，得到第一增益，包括：将所述待处理语音帧的频谱系数输入第一神经网络，所述第一神经网络是根据噪声语音帧对应的声门特征和所述噪声语音帧对应的去噪语音帧对应的声门特征进行训练得到的；通过所述第一神经网络根据所述待处理语音帧的频谱系数进行增益预测，得到所述第一增益。3.根据权利要求2所述的方法，其特征在于，所述将所述待处理语音帧的频谱系数输入第一神经网络之前，所述方法还包括：获取所述待处理语音帧的历史语音帧的频谱系数；所述将所述待处理语音帧的频谱系数输入第一神经网络，包括：将所述待处理语音帧的频谱系数和所述历史语音帧的频谱系数输入到第一神经网络。4.根据权利要求2所述的方法，其特征在于，所述通过所述第一神经网络根据所述待处理语音帧的频谱系数进行增益预测，得到所述第一增益，包括：通过所述第一神经网络对所述待处理语音帧的频谱系数进行增益计算，得到所述待处理语音帧中各个子带对应的第一声门增益，其中，所述子带对应于所述待处理语音帧的频谱系数中至少一个频带；将所述各个子带对应的第一声门增益合并作为所述第一增益。5.根据权利要求4所述的方法，其特征在于，所述方法还包括：通过所述第一神经网络对所述待处理语音帧的频谱系数和所述待处理语音帧的基音周期进行预测分析，确定第二声门增益，所述第二声门增益对应于所述待处理语音帧的频谱系数的长时相关性特征；所述将所述各个子带对应的第一声门增益合并作为所述第一增益，包括：将所述各个子带对应的第一声门增益和所述第二声门增益合并作为所述第一增益。6.根据权利要求1所述的方法，其特征在于，所述通过所述第一神经网络根据所述待处理语音帧的频谱系数进行增益预测，得到所述第一增益，包括：通过所述第一神经网络根据所述待处理语音帧的频谱系数进行参数预测，得到第一声门参数，所述第一声门参数用于表示所述待处理语音帧的频谱系数的短时相关性特征；通过所述第一神经网络根据所述第一声门参数进行增益预测，得到所述第一预测结
果；根据所述第一预测结果确定所述第一增益。7.根据权利要求6所述的方法，其特征在于，所述方法还包括：通过所述第一神经网络根据所述待处理语音帧的频谱系数和所述待处理语音帧的基音周期进行参数预测，得到第二声门参数，所述第一声门参数用于表示所述待处理语音帧的频谱系数的长时相关性特征；通过所述第一神经网络根据所述第二声门参数进行增益预测，得到第二预测结果；所述根据所述第一预测结果确定所述第一增益，包括：将所述第一预测结果和所述第二预测结果合并确定为所述第一增益。8.根据权利要求1所述的方法，其特征在于，所述根据所述待处理语音帧的频谱系数进行激励增益计算，得到第二增益，包括：将所述待处理语音...

【专利技术属性】
技术研发人员：肖玮，史裕鹏，王蒙，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人