语音处理方法、装置、设备和介质制造方法及图纸

技术编号：39275301 阅读：7 留言：0更新日期：2023-11-07 10:52

本申请涉及一种语音处理方法、装置、设备和介质，属于人工智能技术领域。方法包括：获取混合语音和目标对象的注册语音；混合语音中包括目标对象的语音信息；确定从混合语音中提取出的目标对象的初始语音；初始语音是依据注册语音的注册语音特征从混合语音中提取的；根据注册语音特征，确定注册语音和初始语音中语音信息之间的语音相似度；从初始语音中确定语音相似度小于预设相似度的语音信息，得到待过滤语音信息；将初始语音中待过滤语音信息进行过滤处理，得到目标对象的目标语音。采用本方法能够提升语音提取准确率。能够提升语音提取准确率。能够提升语音提取准确率。

全部详细技术资料下载

【技术实现步骤摘要】
语音处理方法、装置、设备和介质

[0001]本申请涉及人工智能
，特别是涉及一种语音处理方法、装置、设备和介质。

技术介绍

[0002]随着计算机技术的发展，出现了语音处理技术，语音处理技术是指对语音信号进行音频处理的技术。语音提取则属于语音处理技术中的其中一种，通过语音提取技术，可从复杂语音场景中提取用户感兴趣的声音。可以理解，复杂语音场景可以包括多人说话干扰、大混响、高背景噪音和音乐噪音等中的至少一种。比如，通过语音提取技术，用户可以从复杂语音场景中提取出自己感兴趣的对象的声音。传统技术中，通常直接对复杂语音进行语音提取，并将提取得到的语音直接作为最终要提取的对象的语音，但是，通过这种方式提取得到的语音经常会残留有较多噪声(比如，提取的语音中还包括其他对象的声音)，从而导致语音提取准确率较低。

技术实现思路

[0003]基于此，有必要针对上述技术问题，提供一种能够提升语音提取准确率的语音处理方法、装置、设备和介质。
[0004]第一方面，本申请提供了一种语音处理方法，所述方法包括：
[0005]获取混合语音和目标对象的注册语音；所述混合语音中包括所述目标对象的语音信息；
[0006]确定从所述混合语音中提取出的所述目标对象的初始语音；所述初始语音是依据所述注册语音的注册语音特征从所述混合语音中提取的；
[0007]根据所述注册语音特征，确定所述注册语音和所述初始语音中语音信息之间的语音相似度；
[0008]从所述初始语音中确定所述语音相似度小于预设相似...

【技术保护点】

【技术特征摘要】
1.一种语音处理方法，其特征在于，所述方法包括：获取混合语音和目标对象的注册语音；所述混合语音中包括所述目标对象的语音信息；确定从所述混合语音中提取出的所述目标对象的初始语音；所述初始语音是依据所述注册语音的注册语音特征从所述混合语音中提取的；根据所述注册语音特征，确定所述注册语音和所述初始语音中语音信息之间的语音相似度；从所述初始语音中确定所述语音相似度小于预设相似度的语音信息，得到待过滤语音信息；将所述初始语音中所述待过滤语音信息进行过滤处理，得到所述目标对象的目标语音。2.根据权利要求1所述的方法，其特征在于，在第一处理模式下执行确定语音相似度及后续相应语音过滤步骤；在第二处理模式下依据所述注册语音特征从所述混合语音中还提取出干扰语音；所述干扰语音是在所述混合语音中干扰识别所述目标对象的语音信息的语音；所述方法还包括：在所述第二处理模式下，将所述混合语音的混合语音特征和所述初始语音的语音特征基于注意力机制进行融合，得到第一注意力特征，以及将所述混合语音特征和所述干扰语音的语音特征基于注意力机制进行融合，得到第二注意力特征；基于所述混合语音特征、所述第一注意力特征和所述第二注意力特征进行融合，并基于融合后的特征得到所述目标对象的目标语音。3.根据权利要求2所述的方法，其特征在于，所述基于所述混合语音特征、所述第一注意力特征和所述第二注意力特征进行融合，并基于融合后的特征得到所述目标对象的目标语音，包括：将所述混合语音特征、所述第一注意力特征、所述第二注意力特征和所述注册语音特征进行融合，并基于融合后的特征得到所述目标对象的目标语音。4.根据权利要求3所述的方法，其特征在于，所述初始语音和所述干扰语音是通过预先训练的语音提取模型从所述混合语音中提取出的；所述方法还包括：将所述混合语音和所述注册语音特征输入至所述语音提取模型，以通过所述语音提取模型基于所述混合语音和所述注册语音特征，生成第一掩码信息和第二掩码信息；根据所述第一掩码信息屏蔽所述混合语音中的干扰信息，得到所述目标对象的初始语音；根据所述第二掩码信息屏蔽所述混合语音中所述目标对象的语音信息，得到干扰语音。5.根据权利要求4所述的方法，其特征在于，所述语音提取模型中预先训练好的模型参数中包括第一掩码映射参数和第二掩码映射参数；所述将所述混合语音和所述注册语音特征输入至所述语音提取模型，以通过所述语音提取模型基于所述混合语音和所述注册语音特征，生成第一掩码信息和第二掩码信息，包括：将所述混合语音和所述注册语音特征输入至所述语音提取模型，以通过所述第一掩码
映射参数映射生成对应的第一掩码信息，以及通过所述第二掩码映射参数映射生成对应的第二掩码信息。6.根据权利要求3所述的方法，其特征在于，所述在所述第二处理模式下，将所述混合语音的混合语音特征和所述初始语音的语音特征基于注意力机制进行融合，得到第一注意力特征，以及将所述混合语音特征和所述干扰语音的语音特征基于注意力机制进行融合，得到第二注意力特征，包括：在所述第二处理模式下，将所述混合语音、一级语音提取模型输出的所述初始语音和所述干扰语音分别输入至二级处理模型中的特征提取层进行特征提取，得到所述混合语音的混合语音特征、所述初始语音的语音特征和所述干扰语音的语音特征；将所述初始语音的语音特征和所述混合语音特征输入至所述二级处理模型中的第一注意力单元，以将所述混合语音的混合语音特征和所述初始语音的语音特征基于注意力机制进行融合，得到第一注意力特征；将所述干扰语音的语音特征和所述混合语音特征输入至所述二级处理模型中的第二注意力单元，以将所述混合语音...

【专利技术属性】
技术研发人员：崔国辉，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人