【技术实现步骤摘要】
一种语音信号处理方法、装置、介质和设备
本专利技术涉及语音处理
,特别涉及一种语音信号处理方法、装置、介质和设备。
技术介绍
本部分旨在为权利要求书中陈述的本专利技术的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。在进行语音通信的过程中,例如,在进行视频会议语音通话的过程中,语音通信质量会受到网络传输质量等因素的影响。在某些情况,例如网络通信质量比较差的情况下,经常会出现部分语音信号损失(可以理解为该部分语音信号的语音质量较差)甚至丢失(可以理解为该部分语音信号的语音质量非常差)的情况,造成语音通信质量较差。在存在部分语音信号损失的情况下,会导致用户听到的该部分语音清晰度较低,而在存在部分语音信号丢失的情况下,会导致用户无法听到该部分语音,影响语义的完整性。因此,亟需提供一种可以提升语音通信质量的解决方案。
技术实现思路
本专利技术实施例提供一种语音信号处理方法、装置、介质和设备,用于解决部分语音信号存在损失或丢失的情况下,语音通信质量较差的问题。第一方面,本专利技术提供了一种语音信号处理方法,所述方法包括:确定接收到的语音信号中的至少一个语音破损片段,所述语音破损片段包括语音信号丢失片段和语音信号损失片段;针对每个语音破损片段,合成得到该语音破损片段对应的语音信号,其中,若一个语音破损片段为语音信号丢失片段,根据该语音信号丢失片段的时长,基于该语音信号丢失片段相邻的至少一个语音信号正常片段,合成得到该语音信号丢失片 ...
【技术保护点】
1.一种语音信号处理方法,其特征在于,所述方法包括:/n确定接收到的语音信号中的至少一个语音破损片段,所述语音破损片段包括语音信号丢失片段和语音信号损失片段;/n针对每个语音破损片段,合成得到该语音破损片段对应的语音信号,其中,若一个语音破损片段为语音信号丢失片段,根据该语音信号丢失片段的时长,基于该语音信号丢失片段相邻的至少一个语音信号正常片段,合成得到该语音信号丢失片段对应的语音信号;若一个语音破损片段为语音信号损失片段,基于该语音信号损失片段,利用预先训练出的语音合成模型,合成得到该语音信号损失片段对应的语音信号;/n利用合成得到的破损语音片段对应的语音信号,替换接收到的语音信号中该破损语音片段对应的原始语音信号。/n
【技术特征摘要】
1.一种语音信号处理方法,其特征在于,所述方法包括:
确定接收到的语音信号中的至少一个语音破损片段,所述语音破损片段包括语音信号丢失片段和语音信号损失片段;
针对每个语音破损片段,合成得到该语音破损片段对应的语音信号,其中,若一个语音破损片段为语音信号丢失片段,根据该语音信号丢失片段的时长,基于该语音信号丢失片段相邻的至少一个语音信号正常片段,合成得到该语音信号丢失片段对应的语音信号;若一个语音破损片段为语音信号损失片段,基于该语音信号损失片段,利用预先训练出的语音合成模型,合成得到该语音信号损失片段对应的语音信号;
利用合成得到的破损语音片段对应的语音信号,替换接收到的语音信号中该破损语音片段对应的原始语音信号。
2.如权利要求1所述的方法,其特征在于,若一个语音信号丢失片段的时长小于一个音子对应的时长,基于该语音信号丢失片段相邻的至少一个语音信号正常片段,合成得到该语音信号丢失片段对应的语音信号,包括:
确定所述语音信号中,与该语音信号丢失片段相邻的至少一个语音信号正常片段;
将确定出的所述语音信号正常片段的每个语音帧对应的语音特征作为输入,利用预先训练出的特征预测模型,依次确定该语音信号丢失片段的每个语音帧对应的语音特征;
将确定出的该语音信号丢失片段的每个语音帧对应的语音特征作为输入,利用预先训练出的声码器模型,依次合成输入的语音特征对应的语音帧对应的每个语音点。
3.如权利要求1所述的方法,其特征在于,若一个语音信号丢失片段的时长不小于一个音子对应的时长,基于该语音信号丢失片段相邻的至少一个语音信号正常片段,合成得到该语音信号丢失片段对应的语音信号,包括:
确定所述语音信号中,与该语音信号丢失片段相邻的至少一个语音信号正常片段;
通过自动语音识别确定所述语音信号正常片段对应的音子序列;
将确定出的所述语音信号正常片段对应的音子序列作为输入,利用预先训练出的语言模型,确定该语音信号丢失片段对应的音子序列;
将确定出的该语音信号丢失片段对应的音子序列作为输入,利用预先训练出的声学模型,依次确定该语音信号丢失片段的每个语音帧对应的语音特征;
将确定出的该语音信号丢失片段的每个语音帧对应的语音特征作为输入,利用预先训练出的声码器模型,依次合成输入的语音特征对应的语音帧对应的每个语音点。
4.如权利要求2或3所述的方法,其特征在于,确定所述语音信号中,与该语音信号丢失片段相邻的至少一个语音信号正常片段,包括:
确定所述语音信号中,与该语音信号丢失片段相邻,且位于该语音信号丢失片段之前的一个语音信号正常片段。
5.如权利要求2或3所述的方法,其特征在于,每个语音帧对应的语音特征包括:
线性预测编码LPC特征,音高Pitch特征、基音频率f0特征、增益gain特征、巴克频率倒谱系数BFCC特征中的至少...
【专利技术属性】
技术研发人员:陈孝良,孔德威,冯大航,常乐,
申请(专利权)人:北京声智科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。