一种基于声源位置的语音分割聚类方法和装置制造方法及图纸

技术编号:37404234 阅读:28 留言:0更新日期:2023-04-30 09:31
本发明专利技术涉及一种基于声源位置的语音分割聚类方法和装置,包括:通过拥有多个信道的收音装置获取输入音频;将输入音频切割为固定长度的音频片段;获取每一个所述音频片段的预估声源位置,所述预估声源位置为所述音频片段中声源相较于收音装置的相对位置;统计各个方向上所述预估声源位置出现的频率以获取重点声源位置,所述重点声源位置为所述预估声源位置出现频率的局部极值;将与所述重点声源位置相邻的区域划分为对应的声源区域;对所述预估声源位置处于同一所述声源区域内的所述音频片段划分至同一个声源分类。本发明专利技术提供的基于声源位置的语音分割聚类方法和装置不需要通过神经网络系统进行音色识别,能够直接根据说话人的位置信息对音频进行分割聚类。人的位置信息对音频进行分割聚类。人的位置信息对音频进行分割聚类。

【技术实现步骤摘要】
一种基于声源位置的语音分割聚类方法和装置


[0001]本专利技术涉及语音处理领域,具体涉及一种基于声源位置的语音分割聚类方法和装置。

技术介绍

[0002]语音分割聚类技术是指在多人说话的场景中,将语音分割为只有一个人说话的语音片段,标记语音片段对应的说话人的身份,从而将同一个人说话的语音片段聚合,以便直观获得一段音频中不同的说话人进行说话的时间段的位置。
[0003]传统的语音分割聚类技术分为分割和聚类两个步骤,在分割步骤时,将固定帧数的声学特征片段分为多小段,将每一小段看做单个说话人的说话片段,并从小段中提取说话人的表示向量;在聚类步骤时,通过对说话人的音频进行音色识别,并根据识别结果将音频片段划分为不同的说话人分类中。现有技术的语音分割聚类技术通常需要使用庞大的数据将神经网络训练出识别特定人的语音的模型,且需要预先使用该特定人的大量音频进行训练,然后通过提取输入音频中的每个人的声纹嵌入码,将声纹嵌入码与单个说话人的模型进行对比,并通过对比的相似度对音频片段进行聚类。整个训练过程需要预先知道待处理人的范围,并根据对比论文中的音频进行本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于声源位置的语音分割聚类方法,其特征在于,包括:从具有多个信道的收音装置获取输入音频,切割所述输入音频,获得多个音频片段;计算每一个所述音频片段的预估声源位置,所述预估声源位置为所述音频片段中声源相较于收音装置的相对位置;统计各个方向上所述预估声源位置出现的频率以获取重点声源位置,所述重点声源位置为所述预估声源位置出现频率的局部极值;将距离所述重点声源位置第一预设范围内的区域划分为所述重点声源位置对应的声源区域;基于所述预估声源位置和所述声源区域对所述多个音频片段进行归类。2.根据权利要求1所述的基于声源位置的语音分割聚类方法,其特征在于,所述预估声源位置为说话人相对于收音装置的角度信息;统计各个方向上所述预估声源位置出现的频率以获取重点声源位置,具体包括:建立以角度与频率为轴线的平面直角坐标系,平面直角坐标系中角度为估计声源位置处于极坐标系中的角度,平面直角坐标系中频率为估计声源位置出现在该角度的次数,从平面直角坐标系中选取局部极值点作为重点声源位置。3.根据权利要求1所述的基于声源位置的语音分割聚类方法,其特征在于,切割所述输入音频,获得多个音频片段,包括:对所述音频进行固定帧长与帧移的切割。4.根据权利要求1所述的基于声源位置的语音分割聚类方法,其特征在于,所述收音装置拥有三个以上的信道输入;通过所述音频片段的多个所述信道的信息综合处理判断预估声源位置。5.根据权利要求1所述的基于声源位置的语音分割聚类方法,其特征在于,通过最大可控响应功率波束形成算法计算所述预估声源位置,具体包括:计算基于相位变换加权的所有信道接收器的广义互相关函数的和,并搜索整个声源空间以确定到波束值最大化的点作为所述预估声源位置。6.根据权利要求1所述的基于声源位置的语音分割聚类方法,其特征在于,所述统计各个方向上所述预估声源位置出现的...

【专利技术属性】
技术研发人员:周若华杜雨轩胡辰磊罗启宝于秋雨虞秋辰
申请(专利权)人:北京建筑大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1