语音处理方法、装置、设备及存储介质制造方法及图纸

技术编号:34766963 阅读:41 留言:0更新日期:2022-08-31 19:19
本发明专利技术公开了一种语音处理方法、装置、设备及存储介质,所述方法包括:对待处理的语音段进行分解处理,获取多帧分解语音段;基于调整算法对多帧所述分解语音段进行调整,获取多帧待叠加语音段;计算获得每帧所述待叠加语音段的幅度增益因子;基于所述幅度增益因子,对每帧所述待叠加语音段的幅度进行调整,确定目标幅度;基于所述目标幅度,获取目标语音段。本发明专利技术的技术方案,通过增加幅度增益因子严格控制待叠加语音段的幅度,解决了由于合成语音幅度过大导致的在实时通信的恢复过程中可能出现较大的失真的问题,实现了避免语音波形尾部幅度过大等情况,使得恢复后的音频更接近原始状态。状态。状态。

【技术实现步骤摘要】
语音处理方法、装置、设备及存储介质


[0001]本专利技术属于音频处理
,尤其涉及一种语音处理方法、装置、设备及存储介质。

技术介绍

[0002]在双工通话中,往往会出现回声问题,说话者可以从听筒中听到自己刚才说的话;如图1所示,路径1

7表明了A说话时的声音传播路径:当远端A的人说了一句话,则远端A的麦克风采集到此声音并产生语音信号,此语音信号传给近端B的扬声器播出;而近端B的麦克风又采集到刚才由B扬声器播出的语音信号,再次传给远端A的扬声器播出,也即远端A说了一句话,过一会又从扬声器听到了自己刚才说的话;反之,如果近端B说话,也是同理。因此,为了防止说话者从听筒中听到自己刚才说的话,需要对回声进行消除。例如,在近端B加入回声消除器对回声进行消除,则远端A不会听到自己刚才说的话。
[0003]目前,常用的回声消除算法有最小均方自适应滤波器(Least Mean Square,LMS)与归一化最小均方自适应滤波器(Normalized Least Mean Square,NLMS)算法,算法要求同时输入麦克风信号与参考信号(近端的扬声器信号实际上就是远端的麦克风信号,又称为参考信号),当仅有远端说话时滤波器以麦克风信号为目标,使参考信号尽可能地接近麦克风信号以模拟回声路径。
[0004]但是,由于网络的波动以及硬件的使用情况,可能出现参考信号与麦克风信号不同步的现象,也即近端麦克风采集音频信号的间隔与近端扬声器播放的间隔可能会出现偏差,进而导致进行回声消除时参考信号与麦克风信号之间产生时延,如果长期网络不佳则时延会越来越大,就会导致无法正常使用参考信号对麦克风信号进行参考而消去回声;虽然回声消除算法中一般会有参考信号与麦克风信号的时延对齐方法,但这只能在小时延值内进行两音频对齐,时延过大和时延不稳定的情况下则很难估计准时延值。

技术实现思路

[0005]本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本专利技术的一个目的在于提出一种语音处理方法、装置、设备及存储介质。
[0006]为了解决上述技术问题,本专利技术的实施例提供如下技术方案:
[0007]一种语音处理方法,包括:
[0008]对待处理的语音段进行分解处理,获取多帧分解语音段;
[0009]基于调整算法对多帧所述分解语音段进行调整,获取多帧待叠加语音段;
[0010]计算获得每帧所述待叠加语音段的幅度增益因子;
[0011]基于所述幅度增益因子,对每帧所述待叠加语音段的幅度进行调整,确定目标幅度;
[0012]基于所述目标幅度,获取目标语音段。
[0013]可选的,所述基于调整算法所述对多帧所述分解语音段进行调整,获得多帧待叠
加语音段,包括:
[0014]若所述分解语音段存在帧缺失或帧冗余,则基于所述分解语音段确定待调整分解语音段;
[0015]对所述待调整分解语音段调整,获得所述待叠加语音段。
[0016]可选的,所述若所述分解语音段存在帧缺失或帧冗余,则基于所述分解语音段确定待调整分解语音段,包括:
[0017]若所述分解语音段存在帧缺失;
[0018]则基于所述分解语音段确定至少一帧所述待调整分解语音段;
[0019]对所述待调整分解语音段进行拉伸,获取所述待叠加语音段。
[0020]可选的,所述计算获得每帧所述待叠加语音段的幅度增益因子,包括:
[0021]获取每帧所述待叠加语音段的长度L;
[0022]基于所述长度将每帧所述待叠加语音段划分为L个样点;其中,L为正整数;
[0023]获取每帧所述样点对应的幅度值;
[0024]获取每帧所述样点的目标叠加位置以及每帧所述目标叠加位置的原始幅度值;
[0025]基于所述幅度值以及原始幅度值,计算获得每帧所述待叠加语音段的所述幅度增益因子。
[0026]可选的,所述基于所述幅度值以及原始幅度值,计算获得每帧所述待叠加语音段的所述幅度增益因子,包括:
[0027]对每帧所述待叠加语音段的L个所述幅度值求和,获得第一值M;其中,M≥0;
[0028]对每帧所述待叠加语音段的L个所述原始幅度值求和,获得第二值N;其中,N≥0;
[0029]基于所述第一值M以及第二值N,获得所述幅度增益因子。
[0030]可选的,所述基于所述第一值M以及第二值N,获得所述幅度增益因子,包括:
[0031]获取L个所述幅度值中零值的数量Q;其中,Q≥0,且Q为整数;
[0032]基于所述长度L以及L个所述幅度值中零值的数量Q,获得所述幅度增益因子的参考系数λ;其中,λ≥1;
[0033]基于所述参考系数λ、第一值M以及第二值N,获得所述幅度增益因子。
[0034]可选的,所述幅度增益因子基于如下公式计算获得:
[0035][0036]其中,β
k
为第k个幅度增益因子;k为正整数。
[0037]可选的,所述参考系数基于如下计算公式获得:
[0038][0039]可选的,所述目标语音段基于如下计算公式计算获得:
[0040]S
k
=P
k

k
[0041]其中,S
k
为第K帧所述目标语音段;P
k
是第K帧所述待叠加语音段。
[0042]本专利技术的实施例还提供一种语音处理装置,包括:
[0043]分解模块,用于对待处理的语音段进行分解处理,获取多帧分解语音段;
[0044]调整模块,用于基于调整算法对多帧所述分解语音段进行调整,获取多帧待叠加
语音段;
[0045]计算模块,用于计算获得每帧所述待叠加语音段的幅度增益因子;
[0046]确定模块,用于基于所述幅度增益因子,对每帧所述待叠加语音段的幅度进行调整,确定目标幅度;
[0047]获取模块,用于基于所述目标幅度,获取目标语音段。
[0048]本专利技术的实施例还提供一种电子设备,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如上所述的方法。
[0049]本专利技术的实施例还提供一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上所述的方法。
[0050]本专利技术的实施例,具有如下技术效果:
[0051]本专利技术的上述技术方案,1)本专利技术的实施例,基于缓存器对网络发送的语音信号进行缓存,形成缓存队列,基于缓存队列可以实现以匀速稳定地向扬声器传输语音信号,解决了时延过大以及时延不稳定的问题,进而可以实现对语音信号传输过程中的时延进行准确估计,进而提高回声消除的准确率。
[0052]2)采用WSOLA算法在两个帧之间留有重叠的部分,同时,对每一个帧进本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音处理方法,其特征在于,包括:对待处理的语音段进行分解处理,获取多帧分解语音段;基于调整算法对多帧所述分解语音段进行调整,获取多帧待叠加语音段;计算获得每帧所述待叠加语音段的幅度增益因子;基于所述幅度增益因子,对每帧所述待叠加语音段的幅度进行调整,确定目标幅度;基于所述目标幅度,获取目标语音段。2.根据权利要求1所述的方法,其特征在于,所述基于调整算法所述对多帧所述分解语音段进行调整,获得多帧待叠加语音段,包括:若所述分解语音段存在帧缺失或帧冗余,则基于所述分解语音段确定待调整分解语音段;对所述待调整分解语音段调整,获得所述待叠加语音段。3.根据权利要求2所述的方法,其特征在于,所述若所述分解语音段存在帧缺失或帧冗余,则基于所述分解语音段确定待调整分解语音段,包括:若所述分解语音段存在帧缺失;则基于所述分解语音段确定至少一帧所述待调整分解语音段;对所述待调整分解语音段进行拉伸,获取所述待叠加语音段。4.根据权利要求1所述的方法,其特征在于,所述计算获得每帧所述待叠加语音段的幅度增益因子,包括:获取每帧所述待叠加语音段的长度L;基于所述长度将每帧所述待叠加语音段划分为L个样点;其中,L为正整数;获取每帧所述样点对应的幅度值;获取每帧所述样点的目标叠加位置以及每帧所述目标叠加位置的原始幅度值;基于所述幅度值以及原始幅度值,计算获得每帧所述待叠加语音段的所述幅度增益因子。5.根据权利要求4所述的方法,其特征在于,所述基于所述幅度值以及原始幅度值,计算获得每帧所述待叠加语音段的所述幅度增益因子,包括:对每帧所述待叠加语音段的L个所述幅度值求和,获得第一值M;其中,M≥0;对每帧所述待叠加语音段的L个所述原始幅度值求和,获得第二值N;其中,N≥0;基于所述第一值M以及第二值N,获得所述幅度增益因子。6.根据权利要求5所述的方法,其特征在于,所述基于所述...

【专利技术属性】
技术研发人员:李泽丰李治均
申请(专利权)人:深圳市联洲国际技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1