说话人分离方法、装置和系统及存储介质制造方法及图纸

技术编号:31800220 阅读:22 留言:0更新日期:2022-01-08 11:00
本发明专利技术提供一种说话人分离方法、装置和系统及存储介质。方法包括:获取待分离音频;对待分离音频的音频部分进行跳变点检测;在跳变点出现的位置进行音频划分;确定任一当前音频段是否是音频部分中的第一个音频段;如果是第一个音频段,则将当前音频段所对应的声纹特征作为新已知说话人的声纹特征存储到声纹库;如果不是第一个音频段,则将当前音频段所对应的声纹特征与声纹库中的声纹特征进行对比;如果当前音频段不属于任何已知说话人,则将当前音频段所对应的声纹特征作为新已知说话人的声纹特征存储到声纹库;如果当前音频段属于任一特定已知说话人,则记录当前音频段与特定已知说话人之间的关联关系。可以提高说话人分离的准确率及效率。确率及效率。确率及效率。

【技术实现步骤摘要】
说话人分离方法、装置和系统及存储介质


[0001]本专利技术涉及语音处理
,具体地,涉及一种说话人分离方法、装置和系统及存储介质。

技术介绍

[0002]如今语音识别技术越来越普及,已广泛应用到各个领域。但是将音频识别成文本之后,如何将每个说话人对应的识别文本进行归类是目前面临的一个棘手的问题。上述归类问题可以采用说话人分离(或称角色分离)技术解决。说话人分离技术可以按照不同的说话人对语音数据中各帧音频数据进行分类整理,将属于同一个说话人的多帧音频数据标记出来。
[0003]目前常用的说话人分离方法主要包括训练一个端到端的说话人分离模型并利用该模型进行说话人分离。然而,这种基于说话人分离模型的算法计算量大,且识别性能也并不够好。

技术实现思路

[0004]为了至少部分地解决现有技术中存在的问题,提供一种说话人分离方法、装置和系统及存储介质。
[0005]根据本专利技术一个方面,提供一种说话人分离方法,包括:获取待分离音频;对待分离音频的音频部分进行跳变点检测,音频部分为待分离音频的至少一部分;在跳变点出现的位置进行音频划分,以将音频部分划分为一个或多个音频段;确定一个或多个音频段中的任一当前音频段是否是音频部分中的第一个音频段;如果当前音频段是第一个音频段,则将当前音频段所对应的声纹特征作为新已知说话人的声纹特征存储到声纹库,声纹库用于存储一个或多个已知说话人各自的声纹特征集合,每个声纹特征集合包括至少一组声纹特征;如果当前音频段不是第一个音频段,则将当前音频段所对应的声纹特征与声纹库中的声纹特征进行对比,以确定当前音频段是否属于声纹库中的已知说话人;如果当前音频段不属于任何已知说话人,则将当前音频段所对应的声纹特征作为新已知说话人的声纹特征存储到声纹库;如果当前音频段属于任一特定已知说话人,则记录当前音频段与特定已知说话人之间的关联关系。
[0006]示例性地,在如果当前音频段不是第一个音频段,则将当前音频段所对应的声纹特征与声纹库中的声纹特征进行对比,以确定当前音频段是否属于声纹库中的已知说话人之后,方法还包括:如果当前音频段属于任一特定已知说话人,则将当前音频段所对应的声纹特征添加到声纹库中的与特定已知说话人相对应的声纹特征集合中。
[0007]示例性地,在如果当前音频段属于任一特定已知说话人,则将当前音频段所对应的声纹特征添加到声纹库中的与特定已知说话人相对应的声纹特征集合中之前,方法还包括:如果声纹库中与特定已知说话人相对应的声纹特征的数目达到预设数目,则:对于特定声纹特征集合中的每个声纹特征,计算该声纹特征与特定声纹特征集合中的其他声纹特征
之间的相似度,以获得该声纹特征的声纹相似度;判断当前音频段所对应的声纹特征的声纹相似度是否最低;如果当前音频段所对应的声纹特征的声纹相似度不是最低,则将声纹相似度最低的声纹特征从声纹库中删除;其中,将当前音频段所对应的声纹特征添加到声纹库中的与特定已知说话人相对应的声纹特征集合中的步骤在当前音频段所对应的声纹特征的声纹相似度不是最低的情况下执行;并且其中,特定声纹特征集合包括声纹库中当前存储的与特定已知说话人相对应的声纹特征以及当前音频段所对应的声纹特征。
[0008]示例性地,在确定一个或多个音频段中的任一当前音频段是否是音频部分中的第一个音频段之后,方法还包括:如果当前音频段不是第一个音频段,则将当前音频段所对应的声纹特征与预设数目的先前音频段所对应的声纹特征进行对比,以确定当前音频段是否属于预设数目的先前音频段中的任一音频段所属的说话人,其中,预设数目的先前音频段是一个或多个音频段中与当前音频段相邻且位于当前音频段之前的预设数目的音频段;其中,如果当前音频段不是第一个音频段,则将当前音频段所对应的声纹特征与声纹库中的声纹特征进行对比,以确定当前音频段是否属于声纹库中的已知说话人的步骤在当前音频段不属于预设数目的先前音频段中的任一音频段所属的说话人的情况下执行。
[0009]示例性地,如果当前音频段不是第一个音频段,则将当前音频段所对应的声纹特征与声纹库中的声纹特征进行对比,以确定当前音频段是否属于声纹库中的已知说话人包括:如果当前音频段不是第一个音频段,则对于声纹库中已存储的任一已知说话人,将该已知说话人所对应的所有声纹特征求平均,以获得该已知说话人所对应的代表声纹特征;将当前音频段所对应的声纹特征与该已知说话人所对应的代表声纹特征进行对比,以确定当前音频段是否属于该已知说话人。
[0010]示例性地,对待分离音频的音频部分进行跳变点检测包括:通过跳变点检测模型对音频部分进行跳变点检测。
[0011]示例性地,在通过跳变点检测模型对音频部分进行跳变点检测之前,方法还包括:获取训练音频及对应的初始标注数据,初始标注数据用于指示训练音频中的至少一个跳变点所在的位置;对于至少一个跳变点中的每个跳变点,从该跳变点周围选取第一数目的附加音频帧;将第一数目的附加音频帧所在的位置确定为第一新跳变点位置;将第一新跳变点位置与初始标注数据结合以生成第一新标注数据;基于训练音频和第一新标注数据对跳变点检测模型执行第一训练操作。
[0012]示例性地,在基于训练音频和第一新标注数据对跳变点检测模型执行第一训练操作之后且在通过跳变点检测模型对音频部分进行跳变点检测之前,方法还包括:对于至少一个跳变点中的每个跳变点,从该跳变点周围选取第二数目的附加音频帧,其中,第二数目小于第一数目;将第二数目的附加音频帧所在的位置确定为第二新跳变点位置;将第二新跳变点位置与初始标注数据结合以生成第二新标注数据;至少基于第二新标注数据获得第三新标注数据;基于训练音频和第三新标注数据对经第一训练操作获得的跳变点检测模型执行第二训练操作。
[0013]示例性地,所有标注数据采用与训练音频的帧长度一致的二进制序列表示,二进制序列中的每个数字表示对应音频帧是否是跳变点所在位置,其中,至少基于第二新标注数据获得第三新标注数据包括:将训练音频输入经第一训练操作获得的跳变点检测模型,以获得跳变点检测模型输出的预测跳变数据;将第二新标注数据和预测跳变数据进行加权
求和,以获得第三新标注数据。
[0014]示例性地,在将第二新标注数据和预测跳变数据进行加权求和的过程中,第二新标注数据的权重取为0.7,预测跳变数据的权重取为0.3。
[0015]示例性地,对于至少一个跳变点中的每个跳变点,从该跳变点周围选取第一数目的附加音频帧包括:从该跳变点周围随机选取处于第一预设数目范围内的附加音频帧,其中,随机选取的执行结果为第一数目的附加音频帧。
[0016]示例性地,第一预设数目范围为20帧至40帧的范围。
[0017]示例性地,对于至少一个跳变点中的每个跳变点,从该跳变点周围选取第二数目的附加音频帧包括:从该跳变点周围随机选取处于第二预设数目范围内的附加音频帧,其中,随机选取的执行结果为第一数目的附加音频帧。
[0018]示例性地,第二预设数目范围为10帧至20帧的范围。
[0019]示例性地,通过跳变点检本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种说话人分离方法,包括:获取待分离音频;对所述待分离音频的音频部分进行跳变点检测,所述音频部分为所述待分离音频的至少一部分;在跳变点出现的位置进行音频划分,以将所述音频部分划分为一个或多个音频段;确定所述一个或多个音频段中的任一当前音频段是否是所述音频部分中的第一个音频段;如果所述当前音频段是第一个音频段,则将所述当前音频段所对应的声纹特征作为新已知说话人的声纹特征存储到声纹库,所述声纹库用于存储一个或多个已知说话人各自的声纹特征集合,每个声纹特征集合包括至少一组声纹特征;如果所述当前音频段不是第一个音频段,则将所述当前音频段所对应的声纹特征与所述声纹库中的声纹特征进行对比,以确定所述当前音频段是否属于所述声纹库中的已知说话人;如果所述当前音频段不属于任何已知说话人,则将所述当前音频段所对应的声纹特征作为新已知说话人的声纹特征存储到所述声纹库;如果所述当前音频段属于任一特定已知说话人,则记录所述当前音频段与所述特定已知说话人之间的关联关系。2.如权利要求1所述的方法,其中,在所述如果所述当前音频段不是第一个音频段,则将所述当前音频段所对应的声纹特征与所述声纹库中的声纹特征进行对比,以确定所述当前音频段是否属于所述声纹库中的已知说话人之后,所述方法还包括:如果所述当前音频段属于任一特定已知说话人,则将所述当前音频段所对应的声纹特征添加到所述声纹库中的与所述特定已知说话人相对应的声纹特征集合中。3.如权利要求2所述的方法,其中,在所述如果所述当前音频段属于任一特定已知说话人,则将所述当前音频段所对应的声纹特征添加到所述声纹库中的与所述特定已知说话人相对应的声纹特征集合中之前,所述方法还包括:如果所述声纹库中与所述特定已知说话人相对应的声纹特征的数目达到预设数目,则:对于特定声纹特征集合中的每个声纹特征,计算该声纹特征与所述特定声纹特征集合中的其他声纹特征之间的相似度,以获得该声纹特征的声纹相似度;判断所述当前音频段所对应的声纹特征的声纹相似度是否最低;如果所述当前音频段所对应的声纹特征的声纹相似度不是最低,则将声纹相似度最低的声纹特征从所述声纹库中删除;其中,所述将所述当前音频段所对应的声纹特征添加到所述声纹库中的与所述特定已知说话人相对应的声纹特征集合中的步骤在所述当前音频段所对应的声纹特征的声纹相似度不是最低的情况下执行;并且其中,所述特定声纹特征集合包括所述声纹库中当前存储的与所述特定已知说话人相对应的声纹特征以及所述当前音频段所对应的声纹特征。4.如权利要求1所述的方法,其中,在所述确定所述一个或多个音频段中的任一当前音频段是否是所述音频部分中的第一个音频段之后,所述方法还包括:
如果所述当前音频段不是第一个音频段,则将所述当前音频段所对应的声纹特征与预设数目的先前音频段所对应的声纹特征进行对比,以确定所述当前音频段是否属于所述预设数目的先前音频段中的任一音频段所属的说话人,其中,所述预设数目的先前音频段是所述一个或多个音频段中与所述当前音频段相邻且位于所述当前音频段之前的预设数目的音频段;其中,所述如果所述当前音频段不是第一个音频段,则将所述...

【专利技术属性】
技术研发人员:何梦中李秀林吴本谷
申请(专利权)人:标贝北京科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1