【技术实现步骤摘要】
一种话者分离方法、装置、电子设备及存储介质
[0001]本公开涉及计算机
,尤其涉及语音处理、智能客服
,具体涉及一种话者分离方法、装置、电子设备及存储介质。
技术介绍
[0002]在智能客服、会议讨论、访谈对话、综艺节目等场景中,单个声道上通常有多个说话人的声音,因而需要对语音进行话者分离。
技术实现思路
[0003]本公开提供了一种话者分离方法、装置、设备以及存储介质。
[0004]根据本公开的一方面,提供了一种话者分离方法,包括:
[0005]对目标音频的第一音频片段进行人声判定,得到多个人声片段;
[0006]对所述人声片段进行特征提取,得到各个人声片段的话者特征;
[0007]基于各个人声片段的话者特征之间的特征相似度,以及预设的第一相似度阈值,对所述人声片段进行聚类,得到至少一个话者片段集合和至少一个非话者片段集合;其中,每个话者片段集合包含的人声片段的数目达到预设数目且属于同一话者;所述非话者片段集合包含的人声片段的数目未达到所述预设数目;
[0008]针对所述非话者片段集合包含的每个人声片段,计算该人声片段与各个话者片段集合的特征相似度,并从中确定特征相似度最大值,若所确定的特征相似度最大值大于预设的第二相似度阈值,将该人声片段划分至所述特征相似度最大值对应的话者片段集合。
[0009]根据本公开的一方面,提供了一种话者分离装置,包括:
[0010]判定模块,用于对目标音频的第一音频片段进行人声判定,得到多个人声片段; ...
【技术保护点】
【技术特征摘要】
1.一种话者分离方法,包括:对目标音频的第一音频片段进行人声判定,得到多个人声片段;对所述人声片段进行特征提取,得到各个人声片段的话者特征;基于各个人声片段的话者特征之间的特征相似度,以及预设的第一相似度阈值,对所述人声片段进行聚类,得到至少一个话者片段集合和至少一个非话者片段集合;其中,每个话者片段集合包含的人声片段的数目达到预设数目且属于同一话者;所述非话者片段集合包含的人声片段的数目未达到所述预设数目;针对所述非话者片段集合包含的每个人声片段,计算该人声片段与各个话者片段集合的特征相似度,并从中确定特征相似度最大值,若所确定的特征相似度最大值大于预设的第二相似度阈值,将该人声片段划分至所述特征相似度最大值对应的话者片段集合。2.根据权利要求1所述的方法,还包括:基于各个人声片段的话者特征之间的特征相似度构建无向图,所述无向图的节点为所述人声片段,所述节点之间的连接权重为所述人声片段之间的特征相似度,且所述无向图中相连接的节点之间的特征相似度均大于预设相似度阈值;所述针对所述非话者片段集合包含的每个人声片段,计算该人声片段与各个话者片段集合的特征相似度,并从中确定特征相似度最大值的步骤,包括:针对所述非话者片段集合包含的每个人声片段,基于该人声片段与各个话者片段集合中人声片段的连接数目,筛选出连接数目大于预设数目的话者片段集合,作为该人声片段的候选话者片段集合;针对所述非话者片段集合包含的每个人声片段,计算该人声片段与各个候选话者片段集合中人声片段的均值相似度,分别作为该人声片段与各个候选话者片段集合的特征相似度,并从该人声片段与各个候选话者片段集合的特征相似度中确定特征相似度最大值。3.根据权利要求1所述的方法,还包括:为每一个话者片段集合生成第一话者标签,得到针对所述目标音频的第一音频片段的话者分离结果。4.根据权利要求1所述的方法,还包括:对所述目标音频的第二音频片段进行人声判定和特征提取,得到多个后续人声片段的话者特征;针对所述话者片段集合、所述非话者片段集合和所述后续人声片段进行重新聚类,得到更新后的话者片段集合;为每一个更新后的话者片段集合生成第二话者标签,并基于更新前的话者片段集合与更新后的话者片段集合中相同人声片段的数目进行匹配,得到更新前的话者片段集合与更新后的话者片段集合的匹配结果;将更新后的话者片段集合的第二话者标签调整为与其相匹配的更新前的话者片段集合的第一话者标签。5.根据权利要求4所述的方法,其中,所述针对所述话者片段集合、所述非话者片段集合和所述后续人声片段进行重新聚类,得到更新后的话者片段集合的步骤,包括:对所述非话者片段集合包含的人声片段和所述后续人声片段进行重聚类,得到重聚类后的话者片段集合和重聚类后的非话者片段集合;
基于重聚类前的话者片段集合和所述重聚类后的话者片段集合之间的特征相似度,对所述重聚类前的话者片段集合、所述重聚类后的话者片段集合进行合并,得到至少一个合并后的话者片段集合;针对所述重聚类后的非话者片段集合包含的每个人声片段,计算该人声片段与各个合并后的话者片段集合的特征相似度,并从中确定特征相似度最大值,若所确定的特征相似度最大值大于预设的第三相似度阈值,将该人声片段划分至该特征相似度最大值对应的合并后的话者片段集合,得到所述更新后的话者片段集合。6.一种话者分离装置,包括:判定模块,用于对目标音频的第一音频片段进行人声判定,得到多个人声片段;第一特征提取模块,用于对所述人声片段进行特征提取,得到各个人声片段的话者特征;聚类模块,用于基于各个人声片段的话者特征之间的特征相似度,以及预设的第一相似度阈值,对所述人声片段进行...
【专利技术属性】
技术研发人员:赵情恩,张银辉,梁芸铭,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。