一种混合语音分离方法、装置、设备及可读存储介质制造方法及图纸

技术编号：42541912 阅读：29 留言：0更新日期：2024-08-27 19:45

本发明专利技术公开了一种混合语音分离方法、装置、设备及可读存储介质，应用于语音分离领域，包括将含有语音重叠的混合语音输入至说话人提取模型的编码器中，得到输出向量；将混合语音中各个说话人的注册语音输入至声纹注册模型中，得到各个说话人的声纹特征；将各个说话人的声纹特征和输出向量依次输入至说话人提取模型的说话人提取器和解码器中，得到初始分离语音；将各个说话人的声纹特征和输出向量输入至说话人日志模型中，得到各个说话人的日志；根据初始分离语音和各个说话人的日志得到混合语音中各个说话人对应的语音。本发明专利技术将声纹注册模型、说话人日志模型和说话人提取模型进行结合，相辅相成，相互促进，共同提高混合语音分离的准确性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及语音分离领域，特别涉及一种混合语音分离方法、装置、设备及可读存储介质。

技术介绍

1、混合语音存在多个说话人语音，而混合语音中一般可能会包含重叠语音，重叠语音是指在同一时间存在两个或以上说话人同时发声，广泛存在于多人对话场景中，比如电话交谈、会议、辩论和广播新闻。主流的语音识别技术假设同一时间只有一个说话人讲话，重叠语音段的存在会使得这些语音处理系统的效果出现下降。而传统的语音分离技术应用到真实场景中语音识别的效果会降低，因为在真实场景的对话中通常会以相对较低的重叠率部分重叠，并且在真实场景的部分场景下，对话通常会相对较长，例如会议场景。

2、因此，在多人同时说话的场景下，如何提高混合语音分离的准确性是当前亟需解决的问题。

技术实现思路

1、有鉴于此，本专利技术的目的在于提供一种混合语音分离方法、装置、设备及可读存储介质，解决了现有技术中混合语音分离准确性差的问题。

2、为解决上述技术问题，本专利技术提供了一种混合语音分离方法，包括：

3、...

【技术保护点】

1.一种混合语音分离方法，其特征在于，包括：

2.根据权利要求1所述的混合语音分离方法，其特征在于，所述声纹注册模型、所述说话人提取模型和所述说话人日志模型的训练过程，包括：

3.根据权利要求1所述的混合语音分离方法，其特征在于，所述声纹注册模型为d-vector模型。

4.根据权利要求1所述的混合语音分离方法，其特征在于，将所述各个说话人的注册语音输入至声纹注册模型中，得到各个说话人的声纹特征，包括：

5.根据权利要求1 至4任一项所述的混合语音分离方法，其特征在于，将所述各个说话人的声纹特征和所述输出向量依次输入至所述说话人提取模型的说...

【技术特征摘要】

1.一种混合语音分离方法，其特征在于，包括：

2.根据权利要求1所述的混合语音分离方法，其特征在于，所述声纹注册模型、所述说话人提取模型和所述说话人日志模型的训练过程，包括：

3.根据权利要求1所述的混合语音分离方法，其特征在于，所述声纹注册模型为d-vector模型。

4.根据权利要求1所述的混合语音分离方法，其特征在于，将所述各个说话人的注册语音输入至声纹注册模型中，得到各个说话人的声纹特征，包括：

5.根据权利要求1 至4任一项所述的混合语音分离方法，其特征在于，将所述各个说话人的声纹特征和所述输出向量依次输入至所述说话人提取模型的说话人提取器和解码器中，得到初始分离语音，包括：

【专利技术属性】
技术研发人员：殷赵慧，胡新辉，徐欣康，
申请(专利权)人：浙江大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人