语音处理方法、装置、设备和介质制造方法及图纸

技术编号:39275301 阅读:7 留言:0更新日期:2023-11-07 10:52
本申请涉及一种语音处理方法、装置、设备和介质,属于人工智能技术领域。方法包括:获取混合语音和目标对象的注册语音;混合语音中包括目标对象的语音信息;确定从混合语音中提取出的目标对象的初始语音;初始语音是依据注册语音的注册语音特征从混合语音中提取的;根据注册语音特征,确定注册语音和初始语音中语音信息之间的语音相似度;从初始语音中确定语音相似度小于预设相似度的语音信息,得到待过滤语音信息;将初始语音中待过滤语音信息进行过滤处理,得到目标对象的目标语音。采用本方法能够提升语音提取准确率。能够提升语音提取准确率。能够提升语音提取准确率。

【技术实现步骤摘要】
语音处理方法、装置、设备和介质


[0001]本申请涉及人工智能
,特别是涉及一种语音处理方法、装置、设备和介质。

技术介绍

[0002]随着计算机技术的发展,出现了语音处理技术,语音处理技术是指对语音信号进行音频处理的技术。语音提取则属于语音处理技术中的其中一种,通过语音提取技术,可从复杂语音场景中提取用户感兴趣的声音。可以理解,复杂语音场景可以包括多人说话干扰、大混响、高背景噪音和音乐噪音等中的至少一种。比如,通过语音提取技术,用户可以从复杂语音场景中提取出自己感兴趣的对象的声音。传统技术中,通常直接对复杂语音进行语音提取,并将提取得到的语音直接作为最终要提取的对象的语音,但是,通过这种方式提取得到的语音经常会残留有较多噪声(比如,提取的语音中还包括其他对象的声音),从而导致语音提取准确率较低。

技术实现思路

[0003]基于此,有必要针对上述技术问题,提供一种能够提升语音提取准确率的语音处理方法、装置、设备和介质。
[0004]第一方面,本申请提供了一种语音处理方法,所述方法包括:
[0005]获取混合语音和目标对象的注册语音;所述混合语音中包括所述目标对象的语音信息;
[0006]确定从所述混合语音中提取出的所述目标对象的初始语音;所述初始语音是依据所述注册语音的注册语音特征从所述混合语音中提取的;
[0007]根据所述注册语音特征,确定所述注册语音和所述初始语音中语音信息之间的语音相似度;
[0008]从所述初始语音中确定所述语音相似度小于预设相似度的语音信息,得到待过滤语音信息;
[0009]将所述初始语音中所述待过滤语音信息进行过滤处理,得到所述目标对象的目标语音。
[0010]第二方面,本申请提供了一种语音处理装置,所述装置包括:
[0011]获取模块,用于获取混合语音和目标对象的注册语音;所述混合语音中包括所述目标对象的语音信息;
[0012]第一提取模块,用于确定从所述混合语音中提取出的所述目标对象的初始语音;所述初始语音是依据所述注册语音的注册语音特征从所述混合语音中提取的;
[0013]确定模块,用于根据所述注册语音特征,确定所述注册语音和所述初始语音中语音信息之间的语音相似度;从所述初始语音中确定所述语音相似度小于预设相似度的语音信息,得到待过滤语音信息;
[0014]过滤模块,用于将所述初始语音中所述待过滤语音信息进行过滤处理,得到所述目标对象的目标语音。
[0015]在一个实施例中,在第一处理模式下执行确定语音相似度及后续相应语音过滤步骤;在第二处理模式下依据所述注册语音特征从所述混合语音中还提取出干扰语音;所述干扰语音是在所述混合语音中干扰识别所述目标对象的语音信息的语音;所述装置还包括:
[0016]第二提取模块,用于在所述第二处理模式下,将所述混合语音的混合语音特征和所述初始语音的语音特征基于注意力机制进行融合,得到第一注意力特征,以及将所述混合语音特征和所述干扰语音的语音特征基于注意力机制进行融合,得到第二注意力特征;基于所述混合语音特征、所述第一注意力特征和所述第二注意力特征进行融合,并基于融合后的特征得到所述目标对象的目标语音。
[0017]在一个实施例中,所述第二提取模块还用于将所述混合语音特征、所述第一注意力特征、所述第二注意力特征和所述注册语音特征进行融合,并基于融合后的特征得到所述目标对象的目标语音。
[0018]在一个实施例中,所述初始语音和所述干扰语音是通过预先训练的语音提取模型从所述混合语音中提取出的;所述第二提取模块还用于将所述混合语音和所述注册语音特征输入至所述语音提取模型,以通过所述语音提取模型基于所述混合语音和所述注册语音特征,生成第一掩码信息和第二掩码信息;根据所述第一掩码信息屏蔽所述混合语音中的干扰信息,得到所述目标对象的初始语音;根据所述第二掩码信息屏蔽所述混合语音中所述目标对象的语音信息,得到干扰语音。
[0019]在一个实施例中,所述语音提取模型中预先训练好的模型参数中包括第一掩码映射参数和第二掩码映射参数;所述第二提取模块还用于将所述混合语音和所述注册语音特征输入至所述语音提取模型,以通过所述第一掩码映射参数映射生成对应的第一掩码信息,以及通过所述第二掩码映射参数映射生成对应的第二掩码信息。
[0020]在一个实施例中,所述第二提取模块还用于在所述第二处理模式下,将所述混合语音、一级语音提取模型输出的所述初始语音和所述干扰语音分别输入至二级处理模型中的特征提取层进行特征提取,得到所述混合语音的混合语音特征、所述初始语音的语音特征和所述干扰语音的语音特征;将所述初始语音的语音特征和所述混合语音特征输入至所述二级处理模型中的第一注意力单元,以将所述混合语音的混合语音特征和所述初始语音的语音特征基于注意力机制进行融合,得到第一注意力特征;将所述干扰语音的语音特征和所述混合语音特征输入至所述二级处理模型中的第二注意力单元,以将所述混合语音的混合语音特征和所述干扰语音的语音特征基于注意力机制进行融合,得到第二注意力特征。
[0021]在一个实施例中,提取所述初始语音和所述干扰语音的语音提取模型为一级语音提取模型;所述二级处理模型还包括特征融合层和二级语音提取模型;所述第二提取模块还用于将所述混合语音特征、所述第一注意力特征、所述第二注意力特征和所述注册语音特征输入至所述特征融合层进行融合,得到语音融合特征;将所述语音融合特征输入至所述二级语音提取模型,以通过所述二级语音提取模型基于所述语音融合特征得到所述目标对象的目标语音。
[0022]在一个实施例中,所述语音信息包括语音片段;所述确定模块还用于针对所述初始语音中的每一个语音片段,确定所述语音片段对应的片段语音特征;根据所述片段语音特征和所述注册语音特征,确定所述注册语音和所述语音片段之间的语音相似度。
[0023]在一个实施例中,所述确定模块还用于针对所述初始语音中的每一个语音片段,将所述语音片段进行重复处理,得到与所述注册语音的时间长度一致的重组语音;其中,所述重组语音包括多个所述语音片段;根据所述重组语音的重组语音特征确定所述语音片段对应的片段语音特征。
[0024]在一个实施例中,所述获取模块还用于响应于针对目标对象的通话触发操作,从预先存储的候选的注册语音中,确定所述目标对象的注册语音;在基于所述通话触发操作与所述目标对象对应的终端建立语音通话的情况下,接收所述目标对象对应的终端在所述语音通话中发送的混合语音。
[0025]在一个实施例中,所述获取模块还用于获取多媒体对象的多媒体语音;所述多媒体语音是包括多个发声对象的语音信息的混合语音;响应于针对多媒体语音中的发声对象的指定操作,获取指定的目标对象的对象标识;所述目标对象是所述多个发声对象中指定提取语音的发声对象;从针对多媒体语音中各发声对象预先存储的注册语音中,获取与所述对象标识具有映射关系的注册语音,得到所述目标对象的注册语音。
[0026]第三方面,本申请提供了一种本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音处理方法,其特征在于,所述方法包括:获取混合语音和目标对象的注册语音;所述混合语音中包括所述目标对象的语音信息;确定从所述混合语音中提取出的所述目标对象的初始语音;所述初始语音是依据所述注册语音的注册语音特征从所述混合语音中提取的;根据所述注册语音特征,确定所述注册语音和所述初始语音中语音信息之间的语音相似度;从所述初始语音中确定所述语音相似度小于预设相似度的语音信息,得到待过滤语音信息;将所述初始语音中所述待过滤语音信息进行过滤处理,得到所述目标对象的目标语音。2.根据权利要求1所述的方法,其特征在于,在第一处理模式下执行确定语音相似度及后续相应语音过滤步骤;在第二处理模式下依据所述注册语音特征从所述混合语音中还提取出干扰语音;所述干扰语音是在所述混合语音中干扰识别所述目标对象的语音信息的语音;所述方法还包括:在所述第二处理模式下,将所述混合语音的混合语音特征和所述初始语音的语音特征基于注意力机制进行融合,得到第一注意力特征,以及将所述混合语音特征和所述干扰语音的语音特征基于注意力机制进行融合,得到第二注意力特征;基于所述混合语音特征、所述第一注意力特征和所述第二注意力特征进行融合,并基于融合后的特征得到所述目标对象的目标语音。3.根据权利要求2所述的方法,其特征在于,所述基于所述混合语音特征、所述第一注意力特征和所述第二注意力特征进行融合,并基于融合后的特征得到所述目标对象的目标语音,包括:将所述混合语音特征、所述第一注意力特征、所述第二注意力特征和所述注册语音特征进行融合,并基于融合后的特征得到所述目标对象的目标语音。4.根据权利要求3所述的方法,其特征在于,所述初始语音和所述干扰语音是通过预先训练的语音提取模型从所述混合语音中提取出的;所述方法还包括:将所述混合语音和所述注册语音特征输入至所述语音提取模型,以通过所述语音提取模型基于所述混合语音和所述注册语音特征,生成第一掩码信息和第二掩码信息;根据所述第一掩码信息屏蔽所述混合语音中的干扰信息,得到所述目标对象的初始语音;根据所述第二掩码信息屏蔽所述混合语音中所述目标对象的语音信息,得到干扰语音。5.根据权利要求4所述的方法,其特征在于,所述语音提取模型中预先训练好的模型参数中包括第一掩码映射参数和第二掩码映射参数;所述将所述混合语音和所述注册语音特征输入至所述语音提取模型,以通过所述语音提取模型基于所述混合语音和所述注册语音特征,生成第一掩码信息和第二掩码信息,包括:将所述混合语音和所述注册语音特征输入至所述语音提取模型,以通过所述第一掩码
映射参数映射生成对应的第一掩码信息,以及通过所述第二掩码映射参数映射生成对应的第二掩码信息。6.根据权利要求3所述的方法,其特征在于,所述在所述第二处理模式下,将所述混合语音的混合语音特征和所述初始语音的语音特征基于注意力机制进行融合,得到第一注意力特征,以及将所述混合语音特征和所述干扰语音的语音特征基于注意力机制进行融合,得到第二注意力特征,包括:在所述第二处理模式下,将所述混合语音、一级语音提取模型输出的所述初始语音和所述干扰语音分别输入至二级处理模型中的特征提取层进行特征提取,得到所述混合语音的混合语音特征、所述初始语音的语音特征和所述干扰语音的语音特征;将所述初始语音的语音特征和所述混合语音特征输入至所述二级处理模型中的第一注意力单元,以将所述混合语音的混合语音特征和所述初始语音的语音特征基于注意力机制进行融合,得到第一注意力特征;将所述干扰语音的语音特征和所述混合语音特征输入至所述二级处理模型中的第二注意力单元,以将所述混合语音...

【专利技术属性】
技术研发人员:崔国辉
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1