语音处理方法、装置、存储介质及电子设备制造方法及图纸

技术编号:37747036 阅读:25 留言:0更新日期:2023-06-05 23:33
本公开涉及语音控制技术领域,具体涉及语音处理方法、语音处理装置、存储介质及电子设备。该语音处理方法包括:对实时获取的当前语音帧进行能量水平估计得到当前能量值,并基于所述当前能量值确定所述当前语音帧的初始增益;基于所述当前能量值对所述当前语音帧进行突变检测得到突变检测结果,并基于所述初始增益和所述突变检测结果对所述当前语音帧进行抖动检测得到抖动检测结果;根据所述突变检测结果和所述抖动检测结果确定最终增益,以将所述最终增益应用至所述当前语音帧。本公开提供的语音处理方法能够保证语音增益的稳定性和实时性。实时性。实时性。

【技术实现步骤摘要】
语音处理方法、装置、存储介质及电子设备


[0001]本公开涉及语音控制
,具体涉及语音处理方法、语音处理装置、存储介质及电子设备。

技术介绍

[0002]在在游戏开黑、直播连麦等多人线上实时语音场景中存在两个问题,其一是,由于各个用户的硬件设备的差异,在同一接收端收到的不同说话人的采集音量可能存在明显的差异;另一个是,由于说话人和麦克风相对位置的变化,同一说话人的音量也会存在忽大忽小的问题。仅在接收端更改音量增益无法对上述问题进行协调,影响了用户体验。
[0003]上述两种场景面临着相同的问题:拿到待处理的语音后,找到合适的增益对其进行缩放,使处理后的语音音量波动减小趋于稳定,或者说接近目标音量值。
[0004]因此需要引入自动增益对音量进行动态调节,传统的自动增益方法基于语音的峰值和目标值比较的方法,容易受到噪声的干扰,同时增益响应所需的时间长,在音量忽大忽小时由于其滞后性容易把大音量放大小音量缩小。
[0005]需要说明的是,在上述
技术介绍
部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种语音处理方法,其特征在于,包括:对实时获取的当前语音帧进行能量水平估计得到当前能量值,并基于所述当前能量值确定所述当前语音帧的初始增益;基于所述当前能量值对所述当前语音帧进行突变检测得到突变检测结果,并基于所述初始增益和所述突变检测结果对所述当前语音帧进行抖动检测得到抖动检测结果;根据所述突变检测结果和所述抖动检测结果确定最终增益,以将所述最终增益应用至所述当前语音帧。2.根据权利要求1所述的语音处理方法,其特征在于,所述对所述当前语音帧进行能量水平估计得到当前能量值,包括:基于所述当前语音帧的有话段检测结果确定当前初态评估值、当前稳态评估值和当前长时估计值;根据所述当前语音帧的有话段检测结果选取所述当前初态评估值或当前稳态评估值作为当前短时估计值;基于最近更新的能量值、所述当前短时估计值和所述当前长时估计值确定所述当前能量值。3.根据权利要求2所述的语音处理方法,其特征在于,所述基于所述当前语音帧的有话段检测结果确定当前初态评估值、当前稳态评估值和当前长时估计值,包括:获取最近更新的初态评估值、稳态评估值和长时估计值;基于所述当前语音帧的有话段检测结果更新所述初态评估值、稳态评估值和长时估计值中的一项或多项,以得到所述当前初态评估值、当前稳态评估值和当前长时估计值。4.根据权利要求2所述的语音处理方法,其特征在于,所述根据所述当前语音帧的有话段检测结果选取所述当前初态评估值或当前稳态评估值作为当前短时估计值,包括:在所述当前语音帧为有话帧,且连续的有话帧超过连续阈值时,选取所述当前初态评估值作为所述当前短时估计值;在所述当前语音帧为有话帧,且连续的有话帧未超过所述连续阈值时,或者在所述有话段检测结果为所述当前语音帧为无话帧时,选取所述当前稳态评估值作为所述当前短时估计值。5.根据权利要求2所述的语音处理方法,其特征在于,所述基于所述最近更新的能量值、所述当前短时估计值和所述当前长时估计值确定所述当前能量值,包括:基于所述当前长时估计值和所述当前短时估计值确定所述当前短时估计值是否有效;在所述当前短时估计值无效时,将所述最近更新的能量值作为所述当前能量值,否则将所述当前短时估计值作为所述当前能量值。6.根据权利要求1所述的语音处理方法,其特征在于,所述基于所述当前能量值确定所述当前语音帧的初始增益,包括:获取预设的目标能量值;将所述目标能量值与所述当前能量值的差值作为所述初始增益。7.根据权利要求1所述的语音处理方法,其特征在于,所述基于所述当前能量值对所述当前语音帧进行突变检测得到突变检测结果,包括:获取所述当前语音帧的均方值;
在所述当前能量值与所述均方值的差值超过突变阈值时,得到突变检测结果为所述当前语音帧发生突变,否则得到突变检测结果为所述当前语音帧未发生突变。8.根据权利要求1所述的语音处理方法,其特征在于,所述基于所述初始增益和所述突变检测结果对所述当前语音帧进行抖动检测得到抖动检测结果,包括:基于所述当前语音帧的有话段检测结果、突变检测结果和所述初始增益确定当前抖动...

【专利技术属性】
技术研发人员:汪喆
申请(专利权)人:广州博冠信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1