一种话者分离方法、装置、电子设备及存储介质制造方法及图纸

技术编号:33731303 阅读:13 留言:0更新日期:2022-06-08 21:26
本公开提供了一种话者分离方法、装置、电子设备及存储介质,涉及计算机技术领域,尤其涉及语音处理、智能客服技术领域。具体实现方案为:对目标音频的第一音频片段进行人声判定,得到多个人声片段;提取各个人声片段的话者特征;基于各个人声片段的话者特征之间的特征相似度,对人声片段进行聚类,得到话者片段集合和非话者片段集合;针对非话者片段集合包含的每个人声片段,计算该人声片段与各个话者片段集合的特征相似度,从中确定特征相似度最大值,若特征相似度最大值大于预设的相似度阈值,将该人声片段划分至特征相似度最大值对应的话者片段集合。能够实时、快速对目标音频进行话者分离,在说话人较多情况下仍有良好的话者分离效果。者分离效果。者分离效果。

【技术实现步骤摘要】
一种话者分离方法、装置、电子设备及存储介质


[0001]本公开涉及计算机
,尤其涉及语音处理、智能客服
,具体涉及一种话者分离方法、装置、电子设备及存储介质。

技术介绍

[0002]在智能客服、会议讨论、访谈对话、综艺节目等场景中,单个声道上通常有多个说话人的声音,因而需要对语音进行话者分离。

技术实现思路

[0003]本公开提供了一种话者分离方法、装置、设备以及存储介质。
[0004]根据本公开的一方面,提供了一种话者分离方法,包括:
[0005]对目标音频的第一音频片段进行人声判定,得到多个人声片段;
[0006]对所述人声片段进行特征提取,得到各个人声片段的话者特征;
[0007]基于各个人声片段的话者特征之间的特征相似度,以及预设的第一相似度阈值,对所述人声片段进行聚类,得到至少一个话者片段集合和至少一个非话者片段集合;其中,每个话者片段集合包含的人声片段的数目达到预设数目且属于同一话者;所述非话者片段集合包含的人声片段的数目未达到所述预设数目;
[0008]针对所述非话者片段集合包含的每个人声片段,计算该人声片段与各个话者片段集合的特征相似度,并从中确定特征相似度最大值,若所确定的特征相似度最大值大于预设的第二相似度阈值,将该人声片段划分至所述特征相似度最大值对应的话者片段集合。
[0009]根据本公开的一方面,提供了一种话者分离装置,包括:
[0010]判定模块,用于对目标音频的第一音频片段进行人声判定,得到多个人声片段;
[0011]第一特征提取模块,用于对所述人声片段进行特征提取,得到各个人声片段的话者特征;
[0012]聚类模块,用于基于各个人声片段的话者特征之间的特征相似度,以及预设的第一相似度阈值,对所述人声片段进行聚类,得到至少一个话者片段集合和至少一个非话者片段集合;其中,每个话者片段集合包含的人声片段的数目达到预设数目且属于同一话者;所述非话者片段集合包含的人声片段的数目未达到所述预设数目;
[0013]计算模块,用于针对所述非话者片段集合包含的每个人声片段,计算该人声片段与各个话者片段集合的特征相似度,并从中确定特征相似度最大值,若所确定的特征相似度最大值大于预设的第二相似度阈值,将该人声片段划分至所述特征相似度最大值对应的话者片段集合。
[0014]根据本公开的另一方面,提供了一种电子设备,包括:
[0015]至少一个处理器;以及
[0016]与所述至少一个处理器通信连接的存储器;其中,
[0017]所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一
个处理器执行,以使所述至少一个处理器能够执行话者分离方法。
[0018]根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行话者分离方法。
[0019]根据本公开的又一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现话者分离方法。
[0020]应用本公开实施例提供的话者分离方法,先对目标音频的第一音频片段进行人声判定,得到人声片段,再提取人声片段的语音特征。随后基于人声片段的话者特征之间的特征相似度进行第一次聚类,即粗聚类,将达到预设数目的聚类集合确定为话者片段集合。粗聚类的聚类延迟低,并且确保每个话者片段集合的高纯度。再根据非话者片段集合包含的人声片段与各个话者片段集合的特征相似度,对非话者片段集合中的人声片段进行重新划分,实现了进一步的细聚类,从而对粗聚类的结果进行实时的细致的调节,得到实时、快速的话者分离结果。
[0021]由于特征提取、聚类的过程均可在线进行,且聚类结果可以包含多个话者片段集合,因此本公开实施例提供的话者分离方法适用于包含多个说话人声音的在线音频的在线话者分离,在说话人较多情况下仍有良好的话者分离效果。并且,也无需大量的话者分离的标注数据,训练特征提取网络的音频样本只需进行整体标注,从公开数据集即可获取,成本较低。
[0022]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0023]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0024]图1为相关技术中在线音频的话者分离方法的一种示意图;
[0025]图2为本公开实施例提供的话者分离方法的一种流程示意图;
[0026]图3(a)是裁剪之前无向图的一种示意图;
[0027]图3(b)是裁剪之后无向图的一种示意图;
[0028]图4为本公开实施例提供的标签匹配的一种流程示意图;
[0029]图5为本公开实施例提供的话者分离方法的一种示意图;
[0030]图6是用来实现本公开实施例的话者分离方法的装置的框图;
[0031]图7是用来实现本公开实施例的话者分离方法的电子设备的框图。
具体实施方式
[0032]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0033]在智能客服、会议讨论、访谈对话、综艺节目等场景中,单个声道上通常有多个说话人的声音,因而需要对语音进行话者分离。
[0034]通常话者分离这个过程是离线完成的,即需要获取完整音频,并确定音频中说话
人的个数,才可以分离。但离线完成的话者分离无法应用于实时性要求高的场合。
[0035]目前也有针对在线音频的在线话者分离,采用端到端深度学习的方案。具体可以参见图1,图1为相关技术中在线音频的话者分离方法的一种示意图,如图1所示,包括音频分帧模块、基于自注意力机制(self

attentive)的编解码(encoder

decoder)模块、预测模块。音频分帧模块对在线音频分帧,再经过编解码模块,得到音频特征,根据音频特征直接预测每帧的说话人标签。整个模型采用端到端的方式进行训练。
[0036]这种端到端的处理方案,在说话人数目小于2的情况下处理结果比较理想,但是一旦多于两人,效果下降明显,即不适用于多个说话人的场景。此外,还需要大量的话者分离的标注数据用于训练,也就是说,对于音频样本,需要确定各个片段是谁说的,即需要确定样本音频数据中各个音频片段的说话人标签,才可以用于训练。然而,获取大量的话者分离的标注数据的人力成本较高。
[0037]为了解决上述技术问题,本公开提供了一种话者分离方法、装置、电子设备及存储介质。
[0038]本公开的一个实施例中,提供了一种话者分离方法,方法包括:
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种话者分离方法,包括:对目标音频的第一音频片段进行人声判定,得到多个人声片段;对所述人声片段进行特征提取,得到各个人声片段的话者特征;基于各个人声片段的话者特征之间的特征相似度,以及预设的第一相似度阈值,对所述人声片段进行聚类,得到至少一个话者片段集合和至少一个非话者片段集合;其中,每个话者片段集合包含的人声片段的数目达到预设数目且属于同一话者;所述非话者片段集合包含的人声片段的数目未达到所述预设数目;针对所述非话者片段集合包含的每个人声片段,计算该人声片段与各个话者片段集合的特征相似度,并从中确定特征相似度最大值,若所确定的特征相似度最大值大于预设的第二相似度阈值,将该人声片段划分至所述特征相似度最大值对应的话者片段集合。2.根据权利要求1所述的方法,还包括:基于各个人声片段的话者特征之间的特征相似度构建无向图,所述无向图的节点为所述人声片段,所述节点之间的连接权重为所述人声片段之间的特征相似度,且所述无向图中相连接的节点之间的特征相似度均大于预设相似度阈值;所述针对所述非话者片段集合包含的每个人声片段,计算该人声片段与各个话者片段集合的特征相似度,并从中确定特征相似度最大值的步骤,包括:针对所述非话者片段集合包含的每个人声片段,基于该人声片段与各个话者片段集合中人声片段的连接数目,筛选出连接数目大于预设数目的话者片段集合,作为该人声片段的候选话者片段集合;针对所述非话者片段集合包含的每个人声片段,计算该人声片段与各个候选话者片段集合中人声片段的均值相似度,分别作为该人声片段与各个候选话者片段集合的特征相似度,并从该人声片段与各个候选话者片段集合的特征相似度中确定特征相似度最大值。3.根据权利要求1所述的方法,还包括:为每一个话者片段集合生成第一话者标签,得到针对所述目标音频的第一音频片段的话者分离结果。4.根据权利要求1所述的方法,还包括:对所述目标音频的第二音频片段进行人声判定和特征提取,得到多个后续人声片段的话者特征;针对所述话者片段集合、所述非话者片段集合和所述后续人声片段进行重新聚类,得到更新后的话者片段集合;为每一个更新后的话者片段集合生成第二话者标签,并基于更新前的话者片段集合与更新后的话者片段集合中相同人声片段的数目进行匹配,得到更新前的话者片段集合与更新后的话者片段集合的匹配结果;将更新后的话者片段集合的第二话者标签调整为与其相匹配的更新前的话者片段集合的第一话者标签。5.根据权利要求4所述的方法,其中,所述针对所述话者片段集合、所述非话者片段集合和所述后续人声片段进行重新聚类,得到更新后的话者片段集合的步骤,包括:对所述非话者片段集合包含的人声片段和所述后续人声片段进行重聚类,得到重聚类后的话者片段集合和重聚类后的非话者片段集合;
基于重聚类前的话者片段集合和所述重聚类后的话者片段集合之间的特征相似度,对所述重聚类前的话者片段集合、所述重聚类后的话者片段集合进行合并,得到至少一个合并后的话者片段集合;针对所述重聚类后的非话者片段集合包含的每个人声片段,计算该人声片段与各个合并后的话者片段集合的特征相似度,并从中确定特征相似度最大值,若所确定的特征相似度最大值大于预设的第三相似度阈值,将该人声片段划分至该特征相似度最大值对应的合并后的话者片段集合,得到所述更新后的话者片段集合。6.一种话者分离装置,包括:判定模块,用于对目标音频的第一音频片段进行人声判定,得到多个人声片段;第一特征提取模块,用于对所述人声片段进行特征提取,得到各个人声片段的话者特征;聚类模块,用于基于各个人声片段的话者特征之间的特征相似度,以及预设的第一相似度阈值,对所述人声片段进行...

【专利技术属性】
技术研发人员:赵情恩张银辉梁芸铭
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1