语音处理方法和装置制造方法及图纸

技术编号：33245265 阅读：27 留言：0更新日期：2022-04-27 17:55

本申请公开一种语音处理方法和装置，本申请获取参考语音(目标对象的语音)，基于待处理混合语音的语音特征对参考语音进行处理，得到参考语音对应的特征维度与待处理混合语音的语音特征维度一致的第一声纹特征，并基于参考语音的第一声纹特征对待处理混合语音的语音特征进行特征融合处理，得到维度同样与待处理混合语音的语音特征维度一致的融合特征，避免在特征融合处理中带来特征维度的扩增，最终基于维度与待处理混合语音的语音特征维度一致的融合特征，提取得到待处理混合语音中目标对象的语音。象的语音。象的语音。

全部详细技术资料下载

【技术实现步骤摘要】
语音处理方法和装置

[0001]本申请属于语音处理
，尤其涉及一种语音处理方法和装置。

技术介绍

[0002]在目标说话人的语音提取场景中，目前的特征融合方式比较单一，一般采用concat(连接)方式融合混合语音的语音特征与目标说话人的声纹特征，其目的是通过参考目标说话人的声纹特征，从混合语音中提取出目标说话人语音。
[0003]然而，上述已有处理方式会为目标说话人的语音提取带来计算量方面的增加，导致目标说话人的语音提取效率低下。

技术实现思路

[0004]为此，本申请公开如下技术方案：
[0005]一种语音处理方法，包括：
[0006]获取参考语音，所述参考语音为目标对象的语音；
[0007]基于待处理混合语音的语音特征，对所述参考语音进行处理，得到所述参考语音的第一声纹特征，以使所述参考语音的第一声纹特征的维度与所述待处理混合语音的语音特征维度一致；
[0008]基于所述参考语音的第一声纹特征对所述待处理混合语音的语音特征进行特征融合处理，得到融合处理后的融合...

【技术保护点】

【技术特征摘要】
1.一种语音处理方法，包括：获取参考语音，所述参考语音为目标对象的语音；基于待处理混合语音的语音特征，对所述参考语音进行处理，得到所述参考语音的第一声纹特征，以使所述参考语音的第一声纹特征的维度与所述待处理混合语音的语音特征维度一致；基于所述参考语音的第一声纹特征对所述待处理混合语音的语音特征进行特征融合处理，得到融合处理后的融合特征，所述融合特征的维度与所述待处理混合语音的语音特征维度一致；基于所述融合特征，提取所述待处理混合语音中的目标对象的语音。2.根据权利要求1所述的方法，所述基于所述参考语音的第一声纹特征对所述待处理混合语音的语音特征进行特征融合处理，得到融合处理后的融合特征，包括：对所述参考语音的第一声纹特征的特征向量进行矩阵变换处理，得到注意力矩阵，所述注意力矩阵的行数和列数分别为所述第一声纹特征的维度；利用所述注意力矩阵，对所述待处理混合语音的语音特征进行特征处理，得到所述融合特征。3.根据权利要求2所述的方法，所述对所述参考语音的第一声纹特征的特征向量进行矩阵变换处理，得到注意力矩阵，包括：对所述第一声纹特征的特征向量进行第一卷积处理，得到第一向量矩阵；对所述第一声纹特征的特征向量进行第二卷积处理，得到第二向量矩阵，并对所述第二向量矩阵进行转置操作，得到第三向量矩阵；对所述第一向量矩阵和所述第三向量矩阵进行处理，并对处理结果进行归一化，得到所述注意力矩阵；其中，所述第一向量矩阵和所述第二向量矩阵的行数分别为所述待处理混合语音的语音特征维度、列数分别为1，或所述第一向量矩阵和所述第二向量矩阵的行数分别为1、列数分别为所述待处理混合语音的语音特征维度。4.根据权利要求2所述的方法，所述利用所述注意力矩阵，对所述待处理混合语音的语音特征进行特征处理，得到所述融合特征，包括：利用所述注意力矩阵的每个行向量，分别对所述待处理混合语音至少部分帧语音中每帧语音的语音特征进处理，得到所述至少部分帧语音中每帧语音对应的融合特征；基于所述至少部分帧语音分别对应的融合特征，得到所述待处理混合语音对应的融合特征。5.根据权利要求2所述的方法，所述利用所述注意力矩阵，对所述待处理混合语音的语音特征进行特征处理，得到所述融合特征，包括：利用所述注意力矩阵的每个行向量，分别对所述待处理混合语音至少部分帧语音中每帧语音的语音特征进处理，得到所述至少部分帧语音中每帧语音对应的数量为注意...

【专利技术属性】
技术研发人员：谢鲁源，杨琳，汪俊杰，
申请(专利权)人：联想北京有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人