说话人分离方法、装置和系统及存储介质制造方法及图纸

技术编号：31800220 阅读：22 留言：0更新日期：2022-01-08 11:00

本发明专利技术提供一种说话人分离方法、装置和系统及存储介质。方法包括：获取待分离音频；对待分离音频的音频部分进行跳变点检测；在跳变点出现的位置进行音频划分；确定任一当前音频段是否是音频部分中的第一个音频段；如果是第一个音频段，则将当前音频段所对应的声纹特征作为新已知说话人的声纹特征存储到声纹库；如果不是第一个音频段，则将当前音频段所对应的声纹特征与声纹库中的声纹特征进行对比；如果当前音频段不属于任何已知说话人，则将当前音频段所对应的声纹特征作为新已知说话人的声纹特征存储到声纹库；如果当前音频段属于任一特定已知说话人，则记录当前音频段与特定已知说话人之间的关联关系。可以提高说话人分离的准确率及效率。确率及效率。确率及效率。

全部详细技术资料下载

【技术实现步骤摘要】
说话人分离方法、装置和系统及存储介质

[0001]本专利技术涉及语音处理
，具体地，涉及一种说话人分离方法、装置和系统及存储介质。

技术介绍

[0002]如今语音识别技术越来越普及，已广泛应用到各个领域。但是将音频识别成文本之后，如何将每个说话人对应的识别文本进行归类是目前面临的一个棘手的问题。上述归类问题可以采用说话人分离(或称角色分离)技术解决。说话人分离技术可以按照不同的说话人对语音数据中各帧音频数据进行分类整理，将属于同一个说话人的多帧音频数据标记出来。
[0003]目前常用的说话人分离方法主要包括训练一个端到端的说话人分离模型并利用该模型进行说话人分离。然而，这种基于说话人分离模型的算法计算量大，且识别性能也并不够好。

技术实现思路

[0004]为了至少部分地解决现有技术中存在的问题，提供一种说话人分离方法、装置和系统及存储介质。
[0005]根据本专利技术一个方面，提供一种说话人分离方法，包括：获取待分离音频；对待分离音频的音频部分进行跳变点检测，音频部分为待分离音频的至少一部分；在跳变点出现的位置进行音频划分，以将音频部分划分为一个或多个音频段；确定一个或多个音频段中的任一当前音频段是否是音频部分中的第一个音频段；如果当前音频段是第一个音频段，则将当前音频段所对应的声纹特征作为新已知说话人的声纹特征存储到声纹库，声纹库用于存储一个或多个已知说话人各自的声纹特征集合，每个声纹特征集合包括至少一组声纹特征；如果当前音频段不是第一个音频段，则将当前音频段所对应的声纹特征与...

【技术保护点】

【技术特征摘要】
1.一种说话人分离方法，包括：获取待分离音频；对所述待分离音频的音频部分进行跳变点检测，所述音频部分为所述待分离音频的至少一部分；在跳变点出现的位置进行音频划分，以将所述音频部分划分为一个或多个音频段；确定所述一个或多个音频段中的任一当前音频段是否是所述音频部分中的第一个音频段；如果所述当前音频段是第一个音频段，则将所述当前音频段所对应的声纹特征作为新已知说话人的声纹特征存储到声纹库，所述声纹库用于存储一个或多个已知说话人各自的声纹特征集合，每个声纹特征集合包括至少一组声纹特征；如果所述当前音频段不是第一个音频段，则将所述当前音频段所对应的声纹特征与所述声纹库中的声纹特征进行对比，以确定所述当前音频段是否属于所述声纹库中的已知说话人；如果所述当前音频段不属于任何已知说话人，则将所述当前音频段所对应的声纹特征作为新已知说话人的声纹特征存储到所述声纹库；如果所述当前音频段属于任一特定已知说话人，则记录所述当前音频段与所述特定已知说话人之间的关联关系。2.如权利要求1所述的方法，其中，在所述如果所述当前音频段不是第一个音频段，则将所述当前音频段所对应的声纹特征与所述声纹库中的声纹特征进行对比，以确定所述当前音频段是否属于所述声纹库中的已知说话人之后，所述方法还包括：如果所述当前音频段属于任一特定已知说话人，则将所述当前音频段所对应的声纹特征添加到所述声纹库中的与所述特定已知说话人相对应的声纹特征集合中。3.如权利要求2所述的方法，其中，在所述如果所述当前音频段属于任一特定已知说话人，则将所述当前音频段所对应的声纹特征添加到所述声纹库中的与所述特定已知说话人相对应的声纹特征集合中之前，所述方法还包括：如果所述声纹库中与所述特定已知说话人相对应的声纹特征的数目达到预设数目，则：对于特定声纹特征集合中的每个声纹特征，计算该声纹特征与所述特定声纹特征集合中的其他声纹特征之间的相似度，以获得该声纹特征的声纹相似度；判断所述当前音频段所对应的声纹特征的声纹相似度是否最低；如果所述当前音频段所对应的声纹特征的声纹相似度不是最低，则将声纹相似度最低的声纹特征从所述声纹库中删除；其中，所述将所述当前音频段所对应的声纹特征添加到所述声纹库中的与所述特定已知说话人相对应的声纹特征集合中的步骤在所述当前音频段所对应的声纹特征的声纹相似度不是最低的情况下执行；并且其中，所述特定声纹特征集合包括所述声纹库中当前存储的与所述特定已知说话人相对应的声纹特征以及所述当前音频段所对应的声纹特征。4.如权利要求1所述的方法，其中，在所述确定所述一个或多个音频段中的任一当前音频段是否是所述音频部分中的第一个音频段之后，所述方法还包括：
如果所述当前音频段不是第一个音频段，则将所述当前音频段所对应的声纹特征与预设数目的先前音频段所对应的声纹特征进行对比，以确定所述当前音频段是否属于所述预设数目的先前音频段中的任一音频段所属的说话人，其中，所述预设数目的先前音频段是所述一个或多个音频段中与所述当前音频段相邻且位于所述当前音频段之前的预设数目的音频段；其中，所述如果所述当前音频段不是第一个音频段，则将所述...

【专利技术属性】
技术研发人员：何梦中，李秀林，吴本谷，
申请(专利权)人：标贝北京科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人