【技术实现步骤摘要】
一种语音处理方法及其相关设备
[0001]本申请实施例涉及人工智能(artificial intelligence,AI)
,尤其涉及一种语音处理方法及其相关设备。
技术介绍
[0002]同一空间内的多个说话人分开或同时说话,从而生成混合语音是一种常见的场景。针对混合语音的内容理解、不同说话人的语音分离等任务一直都是语音领域中非常具有挑战性的问题,通过会利用AI技术中的神经网络模型来解决这类问题。
[0003]例如,声纹分割聚类(speaker diarization)任务主要解决的是“who speak when”的问题。在该任务中,利用神经网络模型对混合语音进行处理后,可得到各个说话人的语音在混合语音中的位置,也就是各个说话人的语音所对应的时间戳。又如,在目标说话人语音提取(target speaker extraction)任务中,利用神经网络模型对混合语音进行处理后,可从混合语音中提取出目标说话人的语音。
[0004]对于上述两种任务而言,相关技术针对不同的任务设计特定的神经网络模型,这样会导致 ...
【技术保护点】
【技术特征摘要】
1.一种语音处理方法,其特征在于,所述方法包括:获取混合语音和目标对象的参考语音,所述混合语音包含所述目标对象的语音和除所述目标对象之外的其余对象的语音;通过第一模型对所述混合语音、所述参考语音和第二模型的中间输出进行处理,得到所述第一模型的中间输出和所述第一模型的最终输出,所述第一模型的最终输出用于获取所述目标对象的语音;通过所述第二模型对所述混合语音和所述第一模型的中间输出进行处理,得到所述第二模型的中间输出和所述第二模型的最终输出,所述第二模型的最终输出用于确定所述目标对象的语音在所述混合语音中的位置。2.根据权利要求1所述的方法,其特征在于,所述对所述混合语音、所述参考语音和第二模型的中间输出进行处理,得到所述第一模型的中间输出和所述第一模型的最终输出包括:对所述混合语音和所述参考语音进行第一处理,得到所述第一模型的中间输出;对所述第一模型的中间输出以及第二模型的中间输出进行第二处理,得到所述第一模型的最终输出。3.根据权利要求1所述的方法,其特征在于,所述对所述混合语音和所述第一模型的中间输出进行处理,得到所述第二模型的中间输出和所述第二模型的最终输出包括:对所述混合语音和所述第一模型的中间输出进行第三处理,得到所述第二模型的中间输出;对所述第二模型的中间输出进行第四处理,得到所述第二模型的最终输出。4.根据权利要求2所述的方法,其特征在于,所述第一处理包含以下至少一种:编码以及基于循环神经网络的处理,所述第二处理包含以下至少一种:拼接、基于循环神经网络的处理、掩码预测以及解码。5.根据权利要求3所述的方法,其特征在于,所述第三处理包含以下至少一种:基于双向长短期记忆网络的处理,所述第四处理包含以下至少一种:拼接、基于双向长短期记忆网络的处理以及线性计算。6.根据权利要求1至5任意一项所述的方法,其特征在于,所述方法还包括:通过第三模型对所述第二模型的中间输出进行上采样,得到所述第二模型的上采样后的中间输出;所述对所述混合语音、所述参考语音和第二模型的中间输出进行处理,得到所述第一模型的中间输出和所述第一模型的最终输出包括:对所述混合语音、所述参考语音和所述第二模型的上采样后的中间输出进行处理,得到所述第一模型的中间输出和所述第一模型的最终输出。7.根据权利要求1至6任意一项所述的方法,其特征在于,所述方法还包括:通过第三模型对所述第一模型的中间输出进行下采样,得到所述第一模型的下采样后的中间输出;所述对所述混合语音和所述第一模型的中间输出进行处理,得到所述第二模型的中间输出和所述第二模型的最终输出包括:对所述混合语音和所述第一模型的下采样后的中间输出进行处理,得到所述第二模型
的中间输出和所述第二模型的最终输出。8.根据权利要求1至7任意一项所述的方法,其特征在于,所述获取目标对象的参考语音包括:获取目标对象的信息,所述信息包含以下至少一种:所述目标对象的图像、所述目标对象的文本以及目标对象的标识;在预置的语音库中,获取与所述信息对应的所述目标对象的参考语音。9.根据权利要求1至7任意一项所述的方法,其特征在于,所述获取目标对象的参考语音包括:将所述混合语音划分为多个语音片段,所述多个语音片段包含目标语音片段;若目标语音片段对应于同一对象,将所述对象确定为目标对象,并将所述目标语音片段确定为所述目标对象的参考语音。10.一种模型训练方法,其特征在于,所述方法包括:获取混合语音和目标对象的参考语音,所述混合语音包含所述目标对象的语音和除所述目标对象之外的其余对象的语音;通过第一待训练模型对所述混合语音、所述参考语音和第二待训练模型的中间输出进行处理,得到所述第一待训练模型的中间输出和所述第一待训练模型的最终输出,所述第一待训练模型的最终输出用于获取所述目标对象的语音;通过所述第二待训练模型对所述混合语音和所述第一待训练模型的中间输出进行处理,得到所述第二待训练模型的中间输出和所述第二待训练模型的最终输出,所述第二待训练模型的最终输出用于确定所述目标对象的语音在所述混合语音中的位置;基于所述第一待训练模型的最终输出以及所述第二待训练模型的最终输出,对所述第一待训练模型和所述第二待训练模型进行训练,得到第一模型以及第二模型。11.根据权利要求10所述的方法,其特征在于,所述对所述混合语音、所述参考语音和第二待训练模型的中间输出进行处理,得到所述第一待训练模型的中间输出和所述第一待训练模型的最终输出包括:对所述混合语音和所述参考语音进行第一处理,得到所述第一待训练模型的中间输出;对所述第一待训练模型的中间输出以及第二待训练模型的中间输出进行第二处理,得到所述第一待训练模型的最终输出。12.根据权利要求10所述的方法,其特征在于,所述对所述混合语音和所述第一待训练模型...
【专利技术属性】
技术研发人员:邓利群,敖君逸,葛檬,李海洲,杨宇庭,陈晓,
申请(专利权)人:华为技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。