话者分离方法、装置、电子设备和存储介质制造方法及图纸

技术编号:32674233 阅读:27 留言:0更新日期:2022-03-17 11:29
本发明专利技术提供一种话者分离方法、装置、电子设备和存储介质,所述方法包括:对视频帧进行人员检测,得到视频帧中人员的人员位置;对视频帧对应的音频段进行声源定位,得到声源位置;基于人员位置和声源位置之间的相对位置关系,对音频段进行话者分离。本发明专利技术提供的话者分离方法、装置、电子设备和存储介质,可以避免环境噪声和不同角色话者声纹特征差异程度的影响,进而可以基于人员位置和声源位置之间的相对位置关系,准确对音频段进行话者分离。准确对音频段进行话者分离。准确对音频段进行话者分离。

【技术实现步骤摘要】
话者分离方法、装置、电子设备和存储介质


[0001]本专利技术涉及智能语音
,尤其涉及一种话者分离方法、装置、电子设备和存储介质。

技术介绍

[0002]话者分离是指将一段音频文件中分属于每一话者的音频数据进行分割,将同一话者的音频数据合并成一类,不同话者的音频数据分开。
[0003]目前,多通过提取音频文件中各话者的声纹特征,并将各话者的声纹特征与声纹特征库中的声纹特征进行比对,实现话者分离。然而,音频文件中可能包含多个不同话者对应的声纹特征,且有些话者的声纹特征并未存储至声纹特征库,从而导致话者分离精度较低的问题。

技术实现思路

[0004]本专利技术提供一种话者分离方法、装置、电子设备和存储介质,用以解决现有技术中话者分离精度较低的缺陷。
[0005]本专利技术提供一种话者分离方法,包括:
[0006]对视频帧进行人员检测,得到所述视频帧中人员的人员位置;
[0007]对所述视频帧对应的音频段进行声源定位,得到声源位置;
[0008]基于所述人员位置和所述声源位置之间的相对位置本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种话者分离方法,其特征在于,包括:对视频帧进行人员检测,得到所述视频帧中人员的人员位置;对所述视频帧对应的音频段进行声源定位,得到声源位置;基于所述人员位置和所述声源位置之间的相对位置关系,对所述音频段进行话者分离。2.根据权利要求1所述的话者分离方法,其特征在于,所述人员位置和所述声源位置之间的相对位置关系是基于如下步骤确定的:基于所述人员位置,以及采集所述音频段时的麦克风位置,确定人员到达相位,所述人员到达相位用于表征所述人员位置为声源时到达相位;基于所述声源位置,以及所述麦克风位置,确定声源到达相位;基于所述人员到达相位和所述声源到达相位,确定所述相对位置关系。3.根据权利要求2所述的话者分离方法,其特征在于,所述基于所述人员位置,以及采集所述音频段时的麦克风位置,确定人员到达相位,包括:基于所述人员位置,确定所述人员相对于麦克风阵列的阵列中心的人员环角和人员俯仰角,所述麦克风阵列用于采集所述音频段;基于所述麦克风阵列中各麦克风的麦克风位置,确定各麦克风相对于所述阵列中心的相对中心角;基于所述人员环角、所述人员俯仰角以及所述相对中心角,确定各麦克风的人员相位;基于每两个麦克风的人员相位,确定所述人员到达相位。4.根据权利要求2所述的话者分离方法,其特征在于,所述基于所述声源位置,以及所述麦克风位置,确定声源到达相位,包括:基于所述声源位置,确定声源相对于麦克风阵列的阵列中心的声源环角和声源俯仰角;基于所述麦克风阵列中各麦克风的各麦克风位置,确定各麦克风相对于所述阵列中心的相对中心角;基于所述声源环角、所述声源俯仰角以及所述相对中心角,确定各麦克风的声源相位;基于每两个麦克风的声源相位,确定所述声源到达相位。5.根据权利要求2所述的话者分离方法,其特征在于,所述基于所述人员位置和所述声源位置之间的相对位置关系,对所述音频段进行话者分离,包括:在所述音频段为语音的情况下,基于所述相...

【专利技术属性】
技术研发人员:刘文超殷保才李渊强程虎
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1