【技术实现步骤摘要】
本专利技术涉及语音分离领域,特别涉及一种混合语音分离方法、装置、设备及可读存储介质。
技术介绍
1、混合语音存在多个说话人语音,而混合语音中一般可能会包含重叠语音,重叠语音是指在同一时间存在两个或以上说话人同时发声,广泛存在于多人对话场景中,比如电话交谈、会议、辩论和广播新闻。主流的语音识别技术假设同一时间只有一个说话人讲话,重叠语音段的存在会使得这些语音处理系统的效果出现下降。而传统的语音分离技术应用到真实场景中语音识别的效果会降低,因为在真实场景的对话中通常会以相对较低的重叠率部分重叠,并且在真实场景的部分场景下,对话通常会相对较长,例如会议场景。
2、因此,在多人同时说话的场景下,如何提高混合语音分离的准确性是当前亟需解决的问题。
技术实现思路
1、有鉴于此,本专利技术的目的在于提供一种混合语音分离方法、装置、设备及可读存储介质,解决了现有技术中混合语音分离准确性差的问题。
2、为解决上述技术问题,本专利技术提供了一种混合语音分离方法,包括:
3、
...【技术保护点】
1.一种混合语音分离方法,其特征在于,包括:
2.根据权利要求1所述的混合语音分离方法,其特征在于,所述声纹注册模型、所述说话人提取模型和所述说话人日志模型的训练过程,包括:
3.根据权利要求1所述的混合语音分离方法,其特征在于,所述声纹注册模型为d-vector模型。
4.根据权利要求1所述的混合语音分离方法,其特征在于,将所述各个说话人的注册语音输入至声纹注册模型中,得到各个说话人的声纹特征,包括:
5.根据权利要求1 至4任一项所述的混合语音分离方法,其特征在于,将所述各个说话人的声纹特征和所述输出向量依次输入至所
...【技术特征摘要】
1.一种混合语音分离方法,其特征在于,包括:
2.根据权利要求1所述的混合语音分离方法,其特征在于,所述声纹注册模型、所述说话人提取模型和所述说话人日志模型的训练过程,包括:
3.根据权利要求1所述的混合语音分离方法,其特征在于,所述声纹注册模型为d-vector模型。
4.根据权利要求1所述的混合语音分离方法,其特征在于,将所述各个说话人的注册语音输入至声纹注册模型中,得到各个说话人的声纹特征,包括:
5.根据权利要求1 至4任一项所述的混合语音分离方法,其特征在于,将所述各个说话人的声纹特征和所述输出向量依次输入至所述说话人提取模型的说话人提取器和解码器中,得到初始分离语音,包括:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。