实时音频处理方法和装置、计算机存储介质、电子设备制造方法及图纸

技术编号:33732704 阅读:10 留言:0更新日期:2022-06-08 21:28
本公开是关于一种实时音频处理方法和装置、计算机存储介质、电子设备,涉及计算机技术领域,该方法包括:获取当前音频,对所述当前音频进行降噪处理,得到降噪语音信号;通过所述降噪语音信号的帧数,对所述降噪语音信号进行有话段检测,得到检测结果;对所述降噪语音信号进行线性预测分析,得到声道模型的声道模型参数和增益系数;通过所述检测结果以及所述声道模型的声道模型参数和增益系数,得到与所述当前音频对应的目标音频。本公开实现了对实时音频中基音频率的改变。音频中基音频率的改变。音频中基音频率的改变。

【技术实现步骤摘要】
实时音频处理方法和装置、计算机存储介质、电子设备


[0001]本公开实施例涉及计算机
,具体而言,涉及一种实时音频处理方法、实时音频处理装置、计算机存储介质以及电子设备。

技术介绍

[0002]在诸多日常使用场景中,我们都需要对原本的声音进行处理,得到预设的音效,例如,在即时通信平台中发送语音消息时,将自己的声音变成萝莉或者大叔的声音。
[0003]相关技术中,可以通过以下两种方式对声音进行变声。一个是对原始语音信号进行变速不变调处理,将原始语音信号持续的时间拉长或者缩短,而原始语音信号的采样频率以及基频没有发生变化;另一种是,对原始语音信号进行变调不变速处理,保证原始语音信号持续时间和采样频率不变的同时,将原始语音信号的基因频率变大或者变小。
[0004]但是,上述两种变声方法都存在局限性,均不能对一句话中的单字做不同比例的修改,即,无法对汉字的声调进行改变。
[0005]因此,需要提供一种新的实时音频处理方法。
[0006]需要说明的是,在上述
技术介绍
部分专利技术的信息仅用于加强对本专利技术的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

技术实现思路

[0007]本公开的目的在于提供一种实时音频处理方法、实时音频处理装置、计算机存储介质以及电子设备,进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的无法对汉字的声调进行改变的问题。
[0008]根据本公开的一个方面,提供一种实时音频处理方法,包括:
[0009]获取当前音频,对所述当前音频进行降噪处理,得到降噪语音信号;
[0010]通过所述降噪语音信号的帧数,对所述降噪语音信号进行有话段检测,得到检测结果;
[0011]对所述降噪语音信号进行线性预测分析,得到声道模型的声道模型参数和增益系数;
[0012]通过所述检测结果以及所述声道模型的声道模型参数和增益系数,得到与所述当前音频对应的目标音频。
[0013]在本公开的一种示例性实施例中,通过所述降噪语音信号的帧数,对所述降噪语音信号进行有话段检测,得到检测结果,包括:
[0014]设置所述降噪语音信号的前置无话段帧数;
[0015]对所述降噪语音信号进行分帧加窗,获取所述降噪语音信号的帧数;
[0016]在确定所述降噪语音信号的帧数小于所述前置无话段帧数时,所述降噪语音信号的检测结果为无话段。
[0017]在本公开的一种示例性实施例中,通过所述降噪语音信号的帧数,对所述降噪语
音信号进行有话段检测,得到检测结果,还包括:
[0018]在确定所述降噪语音信号的帧数大于所述前置无话段帧数时,获取预设的所述降噪语音信号的初始能量阈值以及过零率阈值;
[0019]获取所述降噪语音信号中帧数位于所述前置无话段帧数之前的帧,通过位于所述前置无话段帧数之前的帧的能量以及过零率,对所述初始能量阈值以及所述过零率阈值进行更新,得到第一能量阈值以及第一过零率阈值;
[0020]通过所述第一能量阈值以及所述第一过零率阈值,对所述降噪语音信号中帧数位于所述前置无话段帧数后面的帧进行判断,得到所述降噪语音信号的检测结果。
[0021]在本公开的一种示例性实施例中,通过所述第一能量阈值以及所述第一过零率阈值,对所述降噪语音信号中帧数位于所述前置无话段帧数后面的帧进行判断,得到所述降噪语音信号的检测结果,包括:
[0022]获取所述降噪语音信号中帧数位于所述前置无话段帧数之后的每一帧的能量以及过零率;
[0023]当位于所述前置无话段帧数后面的每一帧的能量大于所述第一能量阈值,以及每一帧的过零率大于所述第一过零率阈值时,所述降噪语音信号的检测结果为有话段。
[0024]在本公开的一种示例性实施例中,对所述降噪语音信号进行线性预测分析,得到声道模型的声道模型参数和增益系数,包括:
[0025]建立输出语音信号与所述降噪语音信号之间的关系,并通过所述输出语音信号定义线性预测器;
[0026]通过所述输出语音信号与所述线性预测器的差值,得到线性预测误差;
[0027]利用所述线性预测误差得到最小均方误差,通过所述最小均方误差,得到所述降噪语音信号的线性预测方程组;
[0028]对所述线性预测方程组求解,得到与所述降噪语音信号对应的声道模型的声道模型参数以及增益系数。
[0029]在本公开的一种示例性实施例中,通过所述检测结果以及所述声道模型的声道模型参数和增益系数,得到与所述当前音频对应的目标音频,包括:
[0030]获取所述声道模型的传递函数,通过所述声道模型参数、所述增益系数以及所述传递函数,得到声道模型;
[0031]当所述降噪语音信号的检测结果为无话段时,利用高斯白噪声冲击所述声道模型,得到与所述降噪语音信号对应的输出信号;
[0032]当所述降噪语音信号的检测结果为有话段时,获取预设的基音周期;
[0033]利用所述预设的基音周期的脉冲串冲击所述声道模型,得到与所述降噪语音信号对应的输出信号;
[0034]将所述输出信号的每一帧进行叠加,得到与所述当前音频对应的目标音频。
[0035]在本公开的一种示例性实施例中,将所述输出信号的每一帧进行叠加,得到与所述当前音频对应的目标音频,包括:
[0036]获取所述输出信号中相邻两帧的帧重叠;
[0037]通过三角窗对所述帧重叠进行加窗并叠加,得到叠加后的语音信号;
[0038]对所述叠加后的语音信号进行平滑处理得到与所述当前音频对应的目标音频。
[0039]根据本公开的一个方面,提供一种实时音频处理装置,包括:
[0040]降噪模块,用于获取当前音频,对所述当前音频进行降噪处理,得到降噪语音信号;
[0041]检测结果获取模块,用于通过所述降噪语音信号的帧数,对所述降噪语音信号进行有话段检测,得到检测结果;
[0042]声道模型确定模块,用于对所述降噪语音信号进行线性预测分析,得到声道模型的声道模型参数和增益系数;
[0043]目标音频生成模块,用于通过所述检测结果以及所述声道模型的声道模型参数和增益系数,得到与所述当前音频对应的目标音频。
[0044]根据本公开的一个方面,提供一种计算机存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一示例性实施例所述的实时音频处理方法。
[0045]根据本公开的一个方面,提供一种电子设备,包括:
[0046]处理器;以及
[0047]存储器,用于存储所述处理器的可执行指令;
[0048]其中,所述处理器配置为经由执行所述可执行指令来执行上述任一示例性实施例所述的实时音频处理方法。
[0049]本公开实施例提供的一种实时音频处理方法,获取当前音频,对所述当前音频进行降噪处理,得到降噪语音信号;通过所述降噪语音信号的帧数,对所述降噪语音信号进行有话段检本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种实时音频处理方法,其特征在于,包括:获取当前音频,对所述当前音频进行降噪处理,得到降噪语音信号;通过所述降噪语音信号的帧数,对所述降噪语音信号进行有话段检测,得到检测结果;对所述降噪语音信号进行线性预测分析,得到声道模型的声道模型参数和增益系数;通过所述检测结果以及所述声道模型的声道模型参数和增益系数,得到与所述当前音频对应的目标音频。2.根据权利要求1所述的实时音频处理方法,其特征在于,通过所述降噪语音信号的帧数,对所述降噪语音信号进行有话段检测,得到检测结果,包括:设置所述降噪语音信号的前置无话段帧数;对所述降噪语音信号进行分帧加窗,获取所述降噪语音信号的帧数;在确定所述降噪语音信号的帧数小于所述前置无话段帧数时,所述降噪语音信号的检测结果为无话段。3.根据权利要求2所述的实时音频处理方法,其特征在于,通过所述降噪语音信号的帧数,对所述降噪语音信号进行有话段检测,得到检测结果,还包括:在确定所述降噪语音信号的帧数大于所述前置无话段帧数时,获取预设的所述降噪语音信号的初始能量阈值以及过零率阈值;获取所述降噪语音信号中帧数位于所述前置无话段帧数之前的帧,通过位于所述前置无话段帧数之前的帧的能量以及过零率,对所述初始能量阈值以及所述过零率阈值进行更新,得到第一能量阈值以及第一过零率阈值;通过所述第一能量阈值以及所述第一过零率阈值,对所述降噪语音信号中帧数位于所述前置无话段帧数后面的帧进行判断,得到所述降噪语音信号的检测结果。4.根据权利要求3所述的实时音频处理方法,其特征在于,通过所述第一能量阈值以及所述第一过零率阈值,对所述降噪语音信号中帧数位于所述前置无话段帧数后面的帧进行判断,得到所述降噪语音信号的检测结果,包括:获取所述降噪语音信号中帧数位于所述前置无话段帧数之后的每一帧的能量以及过零率;当位于所述前置无话段帧数后面的每一帧的能量大于所述第一能量阈值,以及每一帧的过零率大于所述第一过零率阈值时,所述降噪语音信号的检测结果为有话段。5.根据权利要求4所述的实时音频处理方法,其特征在于,对所述降噪语音信号进行线性预测分析,得到声道模型的声道模型参数和增益系数,包括:建立输出语音信号与所述降噪语音信号之间的关系,并通过所述输出语音信号定义线性预测器;通过所述输出语音信号与...

【专利技术属性】
技术研发人员:汪喆
申请(专利权)人:广州博冠信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1