一种语音信号处理方法、装置、介质和设备制造方法及图纸

技术编号:28041863 阅读:17 留言:0更新日期:2021-04-09 23:25
本发明专利技术涉及一种语音信号处理方法、装置、介质和设备。根据本发明专利技术实施例提供的方案,可以识别出语音信号中的语音破损片段,即,语音信号丢失片段和/或语音信号损失片段。进而针对每个语音破损片段,合成得到该语音破损片段对应的语音信号,其中,针对每个语音信号丢失片段,可以根据其时长,利用与其相邻的至少一个语音信号正常片段,合成该语音信号丢失片段对应的语音信号。而针对每个语音信号损失片段,可以基于该语音信号损失片段,利用预先训练出的语音合成模型,合成该语音信号损失片段对应的语音信号,从而可以基于合成得到的语音信号实现对语音信号的修复,提高语音通信质量,保证用户可以连续、清晰地收听到语音。

【技术实现步骤摘要】
一种语音信号处理方法、装置、介质和设备
本专利技术涉及语音处理
,特别涉及一种语音信号处理方法、装置、介质和设备。
技术介绍
本部分旨在为权利要求书中陈述的本专利技术的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。在进行语音通信的过程中,例如,在进行视频会议语音通话的过程中,语音通信质量会受到网络传输质量等因素的影响。在某些情况,例如网络通信质量比较差的情况下,经常会出现部分语音信号损失(可以理解为该部分语音信号的语音质量较差)甚至丢失(可以理解为该部分语音信号的语音质量非常差)的情况,造成语音通信质量较差。在存在部分语音信号损失的情况下,会导致用户听到的该部分语音清晰度较低,而在存在部分语音信号丢失的情况下,会导致用户无法听到该部分语音,影响语义的完整性。因此,亟需提供一种可以提升语音通信质量的解决方案。
技术实现思路
本专利技术实施例提供一种语音信号处理方法、装置、介质和设备,用于解决部分语音信号存在损失或丢失的情况下,语音通信质量较差的问题。第一方面,本专利技术提供了一种语音信号处理方法,所述方法包括:确定接收到的语音信号中的至少一个语音破损片段,所述语音破损片段包括语音信号丢失片段和语音信号损失片段;针对每个语音破损片段,合成得到该语音破损片段对应的语音信号,其中,若一个语音破损片段为语音信号丢失片段,根据该语音信号丢失片段的时长,基于该语音信号丢失片段相邻的至少一个语音信号正常片段,合成得到该语音信号丢失片段对应的语音信号;若一个语音破损片段为语音信号损失片段,基于该语音信号损失片段,利用预先训练出的语音合成模型,合成得到该语音信号损失片段对应的语音信号;利用合成得到的破损语音片段对应的语音信号,替换接收到的语音信号中该破损语音片段对应的原始语音信号。可选的,若一个语音信号丢失片段的时长小于一个音子对应的时长,基于该语音信号丢失片段相邻的至少一个语音信号正常片段,合成得到该语音信号丢失片段对应的语音信号,包括:确定所述语音信号中,与该语音信号丢失片段相邻的至少一个语音信号正常片段;将确定出的所述语音信号正常片段的每个语音帧对应的语音特征作为输入,利用预先训练出的特征预测模型,依次确定该语音信号丢失片段的每个语音帧对应的语音特征;将确定出的该语音信号丢失片段的每个语音帧对应的语音特征作为输入,利用预先训练出的声码器模型,依次合成输入的语音特征对应的语音帧对应的每个语音点。可选的,若一个语音信号丢失片段的时长不小于一个音子对应的时长,基于该语音信号丢失片段相邻的至少一个语音信号正常片段,合成得到该语音信号丢失片段对应的语音信号,包括:确定所述语音信号中,与该语音信号丢失片段相邻的至少一个语音信号正常片段;通过自动语音识别确定所述语音信号正常片段对应的音子序列;将确定出的所述语音信号正常片段对应的音子序列作为输入,利用预先训练出的语言模型,确定该语音信号丢失片段对应的音子序列;将确定出的该语音信号丢失片段对应的音子序列作为输入,利用预先训练出的声学模型,依次确定该语音信号丢失片段的每个语音帧对应的语音特征;将确定出的该语音信号丢失片段的每个语音帧对应的语音特征作为输入,利用预先训练出的声码器模型,依次合成输入的语音特征对应的语音帧对应的每个语音点。可选的,确定所述语音信号中,与该语音信号丢失片段相邻的至少一个语音信号正常片段,包括:确定所述语音信号中,与该语音信号丢失片段相邻,且位于该语音信号丢失片段之前的一个语音信号正常片段。可选的,每个语音帧对应的语音特征包括:线性预测编码LPC特征,音高Pitch特征、基音频率f0特征、增益gain特征、巴克频率倒谱系数BFCC特征中的至少一个。可选的,基于该语音信号损失片段,利用预先训练出的语音合成模型,合成得到该语音信号损失片段对应的语音信号,包括:将该语音信号损失片段的每个语音帧对应的语音特征作为输入,利用预先训练出的语音合成模型,依次合成输入的语音特征对应的语音帧对应的每个语音点。可选的,所述语音合成模型通过以下方法训练得到:获取训练样本集,训练样本集中的每个训练样本对包括对语音质量不小于第二阈值的语音帧进行处理,处理后的语音帧的语音质量小于第二阈值,且不小于第一阈值,获得的处理后的语音帧对应的语音特征,以及处理前的语音帧对应的每个语音点,针对每个训练样本对执行以下操作:将处理后的语音帧对应的语音特征作为预先建立的语音合成模型的输入,获得该预先建立的语音合成模型输出的每个语音点;按照减小该预先建立的语音合成模型输出的每个语音点,与处理前的语音帧对应的每个语音点之间的误差的方式,对所述预先建立的语音合成模型进行调整,直至每个训练样本对均执行完毕以上操作,或者所述预先建立的语音合成模型的输出误差小于设定值。可选的,确定接收到的语音信号中的至少一个语音破损片段之前,所述方法还包括:确定接收到的语音信号的语音质量低于设定值。第二方面,本专利技术还提供了一种语音信号处理装置,所述装置包括:片段确定模块,用于确定接收到的语音信号中的至少一个语音破损片段,所述语音破损片段包括语音信号丢失片段和语音信号损失片段;合成模块,用于针对每个语音破损片段,合成得到该语音破损片段对应的语音信号,其中,若根据接收到的语音信号中每个语音帧的语音质量,确定一个语音破损片段为语音信号丢失片段,根据该语音信号丢失片段的时长,基于该语音信号丢失片段相邻的至少一个语音信号正常片段,合成得到该语音信号丢失片段对应的语音信号;若根据接收到的语音信号中每个语音帧的语音质量,确定一个语音破损片段为语音信号损失片段,基于该语音信号损失片段,利用预先训练出的语音合成模型,合成得到该语音信号损失片段对应的语音信号;恢复模块,用于利用合成得到的破损语音片段对应的语音信号,替换接收到的语音信号中该破损语音片段对应的原始语音信号。第三方面,本专利技术还提供了一种非易失性计算机存储介质,所述计算机存储介质存储有可执行程序,该可执行程序被处理器执行实现如上所述的方法。第四方面,本专利技术还提供了一种语音信号处理设备,包括处理器、通信接口、存储器和通信总线,其中,所述处理器,所述通信接口,所述存储器通过所述通信总线完成相互间的通信;所述存储器,用于存放计算机程序;所述处理器,用于执行所述存储器上所存储的程序时,实现如上所述的方法步骤。根据本专利技术实施例提供的方案,可以识别出语音信号中的语音破损片段,即,语音信号丢失片段和/或语音信号损失片段。进而针对每个语音破损片段,合成得到该语音破损片段对应的语音信号,其中,针对每个语音信号丢失片段,可以根据其时长,利用与其相邻的至少一个语音信号正常片段,合成该语音信号丢失片段对应的语音信号。而针对每个语音信号损失片段,可以基于该语音信号损失片段,利用预先训练出的语音合成模型,合成该语音信号损失片段对应的本文档来自技高网...

【技术保护点】
1.一种语音信号处理方法,其特征在于,所述方法包括:/n确定接收到的语音信号中的至少一个语音破损片段,所述语音破损片段包括语音信号丢失片段和语音信号损失片段;/n针对每个语音破损片段,合成得到该语音破损片段对应的语音信号,其中,若一个语音破损片段为语音信号丢失片段,根据该语音信号丢失片段的时长,基于该语音信号丢失片段相邻的至少一个语音信号正常片段,合成得到该语音信号丢失片段对应的语音信号;若一个语音破损片段为语音信号损失片段,基于该语音信号损失片段,利用预先训练出的语音合成模型,合成得到该语音信号损失片段对应的语音信号;/n利用合成得到的破损语音片段对应的语音信号,替换接收到的语音信号中该破损语音片段对应的原始语音信号。/n

【技术特征摘要】
1.一种语音信号处理方法,其特征在于,所述方法包括:
确定接收到的语音信号中的至少一个语音破损片段,所述语音破损片段包括语音信号丢失片段和语音信号损失片段;
针对每个语音破损片段,合成得到该语音破损片段对应的语音信号,其中,若一个语音破损片段为语音信号丢失片段,根据该语音信号丢失片段的时长,基于该语音信号丢失片段相邻的至少一个语音信号正常片段,合成得到该语音信号丢失片段对应的语音信号;若一个语音破损片段为语音信号损失片段,基于该语音信号损失片段,利用预先训练出的语音合成模型,合成得到该语音信号损失片段对应的语音信号;
利用合成得到的破损语音片段对应的语音信号,替换接收到的语音信号中该破损语音片段对应的原始语音信号。


2.如权利要求1所述的方法,其特征在于,若一个语音信号丢失片段的时长小于一个音子对应的时长,基于该语音信号丢失片段相邻的至少一个语音信号正常片段,合成得到该语音信号丢失片段对应的语音信号,包括:
确定所述语音信号中,与该语音信号丢失片段相邻的至少一个语音信号正常片段;
将确定出的所述语音信号正常片段的每个语音帧对应的语音特征作为输入,利用预先训练出的特征预测模型,依次确定该语音信号丢失片段的每个语音帧对应的语音特征;
将确定出的该语音信号丢失片段的每个语音帧对应的语音特征作为输入,利用预先训练出的声码器模型,依次合成输入的语音特征对应的语音帧对应的每个语音点。


3.如权利要求1所述的方法,其特征在于,若一个语音信号丢失片段的时长不小于一个音子对应的时长,基于该语音信号丢失片段相邻的至少一个语音信号正常片段,合成得到该语音信号丢失片段对应的语音信号,包括:
确定所述语音信号中,与该语音信号丢失片段相邻的至少一个语音信号正常片段;
通过自动语音识别确定所述语音信号正常片段对应的音子序列;
将确定出的所述语音信号正常片段对应的音子序列作为输入,利用预先训练出的语言模型,确定该语音信号丢失片段对应的音子序列;
将确定出的该语音信号丢失片段对应的音子序列作为输入,利用预先训练出的声学模型,依次确定该语音信号丢失片段的每个语音帧对应的语音特征;
将确定出的该语音信号丢失片段的每个语音帧对应的语音特征作为输入,利用预先训练出的声码器模型,依次合成输入的语音特征对应的语音帧对应的每个语音点。


4.如权利要求2或3所述的方法,其特征在于,确定所述语音信号中,与该语音信号丢失片段相邻的至少一个语音信号正常片段,包括:
确定所述语音信号中,与该语音信号丢失片段相邻,且位于该语音信号丢失片段之前的一个语音信号正常片段。


5.如权利要求2或3所述的方法,其特征在于,每个语音帧对应的语音特征包括:
线性预测编码LPC特征,音高Pitch特征、基音频率f0特征、增益gain特征、巴克频率倒谱系数BFCC特征中的至少...

【专利技术属性】
技术研发人员:陈孝良孔德威冯大航常乐
申请(专利权)人:北京声智科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1