语音处理方法及装置、计算机存储介质、电子设备制造方法及图纸

技术编号:27128983 阅读:11 留言:0更新日期:2021-01-25 19:54
本公开涉及语音处理技术领域,提供了一种语音处理方法、装置、计算机存储介质及电子设备,该方法包括:获取语音序列,对所述语音序列进行分帧处理得到多个语音子序列,提取各所述语音子序列的目标特征;根据各所述目标特征通过语音检测模型对各所述语音子序列进行检测,并根据检测结果确定有效语音;将所述有效语音对应的目标特征输入声纹识别模型,通过所述声纹识别模型从所述有效语音中筛选出目标语音;控制将所述目标语音转发至其它客户端。本公开能够对语音序列进行过滤和筛选,在提高语音传输质量的同时,减少了服务器带宽。减少了服务器带宽。减少了服务器带宽。

【技术实现步骤摘要】
语音处理方法及装置、计算机存储介质、电子设备


[0001]本公开涉及语音处理
,特别涉及一种语音处理方法、语音处理装置、计算机可读存储介质及电子设备。

技术介绍

[0002]随着通信技术和智能终端的发展,人与人之间的交流通过智能终端进行直播、通话或聊天等语音功能完成。但在使用语音功能时,用户的录音常常会伴有大量的背景噪声或他人的声音,导致其他用户无法辨明该用户说话的实际内容。
[0003]现有技术中采用TCP语音数据传输模式,语音流采用TCP协议来进行传输,这种传输方式虽然可靠,但是无法对语音进行过滤和筛选。
[0004]鉴于此,本领域亟需开发一种新的语音处理方法及装置。
[0005]需要说明的是,在上述
技术介绍
部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

技术实现思路

[0006]本公开的目的在于提供一种语音处理方法、语音处理装置、计算机可读存储介质及电子设备,进而至少在一定程度上对语音序列进行过滤和筛选。
[0007]本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
[0008]根据本公开的一个方面,提供一种语音处理方法,所述方法包括:获取语音序列,对所述语音序列进行分帧处理得到多个语音子序列,提取各所述语音子序列的目标特征;根据各所述目标特征通过语音检测模型对各所述语音子序列进行检测,并根据检测结果确定有效语音;将所述有效语音对应的目标特征输入声纹识别模型,通过所述声纹识别模型从所述有效语音中筛选出目标语音,控制将所述目标语音转发至其它客户端。
[0009]在本公开的一些示例性实施例中,所述根据各所述目标特征通过语音检测模型对各所述语音子序列进行检测,包括:将各所述目标特征输入所述语音检测模型中进行特征提取,以得到各所述目标特征对应的语音子序列的目标概率;在所述语音子序列的目标概率大于第一概率阈值时,则判定所述语音子序列为有效语音子序列。
[0010]在本公开的一些示例性实施例中,所述方法还包括:获取所述语音序列中的噪声子序列,并根据所述噪声子序列计算所述语音序列对应的噪声能量;计算各所述语音子序列的语音能量,并根据所述噪声能量和所述语音能量确定所述语音子序列对应的信噪比;若所述语音子序列对应的信噪比大于信噪比阈值,则判定所述语音子序列为有效语音子序列。
[0011]在本公开的一些示例性实施例中,所述获取所述语音序列中的噪声子序列,并根据所述噪声子序列计算所述语音序列对应的噪声能量,包括:将所述语音序列的前预设个数的语音子序列作为所述噪声子序列,计算所述噪声子序列的语音能量,将所述噪声子序
列的语音能量作为初始噪声能量;获取所述语音序列对应的时间序列,根据所述时间序列、所述初始噪声能量和所述语音序列对应的语音能量对所述噪声能量进行迭代更新。
[0012]在本公开的一些示例性实施例中,所述方法还包括:获取各所述语音子序列的目标概率和各所述语音子序列的信噪比;在所述语音子序列的目标概率大于第一概率阈值时,判断所述语音子序列对应的信噪比是否大于信噪比阈值;若所述语音子序列对应的信噪比大于所述信噪比阈值,则判定所述语音子序列为所述有效语音子序列。
[0013]在本公开的一些示例性实施例中,所述根据检测结果确定有效语音,包括:对所述语音序列进行滑窗操作,以获取多个连续语音序列,其中,所述滑窗操作的窗长大于窗偏移量;获取各所述连续语音序列中有效语音子序列的个数,若所述有效语音子序列的个数大于个数阈值,则判定所述连续语音序列为所述有效语音。
[0014]在本公开的一些示例性实施例中,所述将所述有效语音对应的目标特征输入声纹识别模型,通过所述声纹识别模型从所述有效语音中筛选出目标语音,包括:将所述有效语音对应的目标特征作为有效目标特征,将所述有效目标特征输入所述声纹识别模型中进行特征提取,以得到所述有效目标特征对应的有效语音子序列的语音表征向量;获取目标表征向量,根据所述语音表征向量和所述目标表征向量计算所述有效语音子序列对应的PLDA评分;若所述PLDA评分大于评分阈值,则所述有效语音子序列为目标语音。
[0015]在本公开的一些示例性实施例中,所述声纹识别模型包括卷积层、双层长短期记忆层、池化层、仿射层,所述将所述有效目标特征输入所述声纹识别模型中进行特征提取,以得到所述有效目标特征对应的有效语音子序列的语音表征向量,包括:将所述有效目标特征输入所述声纹识别模型中,利用所述卷积层和所述双层长短期记忆层依次对所述有效目标特征进行特征提取,以获取所述有效目标特征的深层特征,其中,所述深层特征包括时间维度和特征维度;将所述深层特征输入所述池化层进行特征提取,以获取所述深层特征在所述时间维度上的最大值特征和均值特征,并将所述最大值特征和所述均值特征进行求和得到隐层特征;将所述隐层特征输入所述仿射层进行仿射变换,以获得所述有效语音子序列的语音表征向量。
[0016]在本公开的一些示例性实施例中,所述获取目标表征向量,包括:获取目标语音序列,将所述目标语音序列对应的目标特征输入所述声纹识别模型进行特征提取,以获取所述目标语音序列对应的目标表征向量。
[0017]在本公开的一些示例性实施例中,所述获取目标表征向量,包括:在所述有效语音中获取第一有效语音,将所述第一有效语音作为所述初始语音序列;将所述初始语音序列对应的目标特征输入所述声纹识别模型进行特征提取,以获取所述初始语音序列对应的初始表征向量,并将所述初始表征向量作为所述目标表征向量计算所述PLDA评分;根据所述初始表征向量、时间序列和所述PLDA评分更新所述目标表征向量。
[0018]在本公开的一些示例性实施例中,所述根据所述初始表征向量和时间序列和所述PLDA评分更新所述目标表征向量,包括:根据所述初始表征向量、所述初始表征向量对应的PLDA评分和所述初始表征向量对应的时间戳与当前时间戳的时间差,计算更新表征向量;将所述更新表征向量作为新的初始表征向量,重复上一步骤,将所述更新表征向量作为所述目标表征向量。
[0019]在本公开的一些示例性实施例中,所述对所述语音序列进行分帧处理得到多个语
音子序列,包括:对所述语音序列进行预加重处理,并对预加重处理后的语音序列按照预设帧长和预设帧偏移量对所述语音序列进行分帧处理,以得到多个所述语音子序列,其中,所述预设帧长大于所述预设帧偏移量。
[0020]在本公开的一些示例性实施例中,所述提取各所述语音子序列的目标特征,包括:计算各所述语音子序列对应的语音能量和梅尔滤波器参数;将各所述语音子序列的语音能量与所述梅尔滤波器参数进行点乘得到各所述语音子序列的目标特征。
[0021]在本公开的一些示例性实施例中,所述计算各所述语音子序列对应的语音能量,包括:对各所述语音子序列进行加窗处理,并对加窗处理后的各语音子序列进行傅里叶变换得到各所述语音子序列的傅里叶参数;根据各所述语音子序列的傅里叶参数计算各所本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音处理方法,其特征在于,包括:获取语音序列,对所述语音序列进行分帧处理得到多个语音子序列,提取各所述语音子序列的目标特征;根据各所述目标特征通过语音检测模型对各所述语音子序列进行检测,并根据检测结果确定有效语音;将所述有效语音对应的目标特征输入声纹识别模型,通过所述声纹识别模型从所述有效语音中筛选出目标语音;控制将所述目标语音转发至其它客户端。2.根据权利要求1所述的语音处理方法,其特征在于,所述根据各所述目标特征通过语音检测模型对各所述语音子序列进行检测,包括:将各所述目标特征输入所述语音检测模型中进行特征提取,以得到各所述目标特征对应的语音子序列的目标概率;在所述语音子序列的目标概率大于第一概率阈值时,则判定所述语音子序列为有效语音子序列。3.根据权利要求1所述的语音处理方法,其特征在于,所述方法还包括:获取所述语音序列中的初始噪声子序列,并根据所述初始噪声子序列计算所述语音序列对应的噪声能量;计算各所述语音子序列的语音能量,并根据所述噪声能量和所述语音能量确定所述语音子序列对应的信噪比;若所述语音子序列对应的信噪比大于信噪比阈值,则判定所述语音子序列为有效语音子序列。4.根据权利要求3所述的语音处理方法,其特征在于,所述获取所述语音序列中的初始噪声子序列,并根据所述初始噪声子序列计算所述语音序列对应的噪声能量,包括:将所述语音序列的前预设个数的语音子序列作为所述初始噪声子序列,计算所述初始噪声子序列的语音能量,将所述初始噪声子序列的语音能量作为初始噪声能量;获取所述语音序列对应的时间序列,根据所述时间序列、所述初始噪声能量和所述语音序列对应的语音能量对所述噪声能量进行迭代更新。5.根据权利要求1所述的语音处理方法,其特征在于,所述方法还包括:获取各所述语音子序列的目标概率和各所述语音子序列的信噪比;在所述语音子序列的目标概率大于第一概率阈值时,判断所述语音子序列对应的信噪比是否大于信噪比阈值;若所述语音子序列对应的信噪比大于所述信噪比阈值,则判定所述语音子序列为所述有效语音子序列。6.根据权利要求2、3或5任一项所述的语音处理方法,其特征在于,所述根据检测结果确定有效语音,包括:对所述语音序列进行滑窗操作,以获取多个连续语音序列,其中,所述滑窗操作的窗长大于窗偏移量;获取各所述连续语音序列中有效语音子序列的个数,若所述有效语音子序列的个数大于个数阈值,则判定所述连续语音序列为所述有效语音。
7.根据权利要求1所述的语音处理方法,其特征在于,所述将所述有效语音对应的目标特征输入声纹识别模型,通过所述声纹识别模型从所述有效语音中筛选出目标语音,包括:将所述有效语音对应的目标特征作为有效目标特征,将所述有效目标特征输入所述声纹识别模型中进行特征提取,以得到所述有效目标特征对应的有效语音子序列的语音表征向量;获取目标表征向量,根据所述语音表征向量和所述目标表征向量计算所述有效语音子序列对应的PLDA评分;若所述PLDA评分大于评分阈值,则所述有效语音子序列为目标语音。8.根据权利要求7所述的语音处理方法,其特征在于,所述声纹识别模型包括卷积层、双层长短期记忆层、池化层、仿射层;所述将所述有效目标特征输入所述声纹识别模型中进行特征提取,以得到所述有效目标特征对应的有效语音子序列的语音表征向量,包括:将所述有效目标特征输入所述声纹识别模型中,利用所述卷积层和所述双层长短期记忆层依次对所述有效目标特征进行特征提取,以获取所述有效目标特征的深层特征,其中,所述深层特征包括时间维度和特征维度;将所述深层特征输入所述池化层进行特征提取,以获取所述深层特征在所述时间维度上的最大值特征和均值特征,并将所述最大值特征和所述均值特征进行求和得到隐层特征;将所述隐层特征输入所述仿射层进行仿射变换,以获得所述有效语音子序列的语音表征向量。9.根据权利要求7所述的语音处理方法,其特征在于,所述获取目标表征向量,包括:获取目标语音序列,将所述目标语音序列对应的目标特征输入所述声纹识别模型进行特征提取,以获取所述目标语音序列对应的目标表征向量。10.根据权利要求7所述的语音处理方法,其特征在于,所述获取目标表征向量,包括:在所述有效语音中获取第一有效语音,将所述第一有效语音作为所述初始语音序列;将所述初始语音序列对应的目标特征输入所述声纹识别模型进行特征提取,以获取所述初始语音序列对应的初始表征向量,并将所述初始表征向量作为所述目标表征向量计算所述PLDA评分;根据所述初始表征向量、时间序列和所述PLDA评分更新所述目标...

【专利技术属性】
技术研发人员:丁涵宇林悦陈堆盛
申请(专利权)人:网易杭州网络有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1