声源定位方法、装置及设备制造方法及图纸

技术编号:30706987 阅读:31 留言:0更新日期:2021-11-06 09:54
本申请公开了会议发言展示系统,声源定位方法和装置,会议系统,拾音设备。其中,所述方法包括:通过指向性麦克风阵列采集多通道语音信号;根据阵列形状信息和麦克风指向方向信息,确定包括相位信息和振幅信息的导向矢量;根据所述导向矢量和所述语音信号,确定声源方向信息。采用这种处理方式,使得在确定导向矢量时同时考虑相位信息和振幅信息,这样可以有效提升声源定位的准确度。效提升声源定位的准确度。效提升声源定位的准确度。

【技术实现步骤摘要】
声源定位方法、装置及设备


[0001]本申请涉及语音处理
,具体涉及会议发言展示系统,声源定位方法和装置,会议系统,拾音设备。

技术介绍

[0002]会议场景中的音视频设备的基本功能包括发言者跟踪功能。要实现发言者跟踪功能,就需要对发言者进行实时定位。声源定位(Sound Localization)是对声源空间位置的判定,声源定位的准确度直接影响着发言者跟踪的准确度。
[0003]一种典型的声源定位方法是基于麦克风的波达方向估计(DirectionofArrival,DOA)方法。基于麦克风的DOA方法包括两类:基于全向性麦克风的DOA方法和基于指向性麦克风阵列的DOA方法。由于基于全向性麦克风阵列的DOA方法受混响影响大,而基于指向性麦克风阵列的DOA方法的鲁棒性更高,因此基于指向性麦克风阵列的DOA方法得到了广泛应用。基于指向性麦克风阵列的DOA现有方法是,采用呈圆形的指向性麦克风阵列,在可控响应功率(Steered

Response Power,SRP)声源定位算法基础上增加权重函数(Weighting Function),利用部分面向声源的麦克风拾取的信号估计声源方向。
[0004]然而,在实现本专利技术过程中,专利技术人发现基于指向性麦克风阵列的DOA现有方案至少存在如下问题:由于只利用了部分面向声源的麦克风拾取的信号,且没有充分利用振幅信息,因此声源定位准确度较低。

技术实现思路

[0005]本申请提供声源定位方法,以解决现有技术存在的声源定位准确度较低的问题。本申请另外提供会议发言展示系统,声源定位装置,会议系统,拾音设备。
[0006]本申请提供一种会议发言展示系统,包括:终端设备,用于通过指向性麦克风阵列采集会议空间的多通道语音信号;根据阵列形状信息和麦克风指向方向信息,确定包括相位信息和振幅信息的导向矢量;根据所述导向矢量和所述语音信号,确定会议发言用户的位置信息;将所述语音信号和所述位置信息发送至服务端;以及,展示服务端回送的不同会议发言用户的会议发言文本;服务端,用于通过语音识别算法,将所述语音信号转换为会议发言文本;根据所述位置信息,确定不同会议发言用户的会议发言文本。
[0007]本申请还提供一种声源定位方法,包括:通过指向性麦克风阵列采集多通道语音信号;根据阵列形状信息和麦克风指向方向信息,确定包括相位信息和振幅信息的导向矢量;根据所述导向矢量和所述语音信号,确定声源方向信息。
[0008]可选的,所述根据阵列形状信息和麦克风指向方向信息,确定包括相位信息和振幅信息的导向矢量,包括:
根据阵列形状信息,确定相位差;根据麦克风指向方向信息,确定振幅响应;根据相位差和振幅响应,确定所述导向矢量。
[0009]可选的,所述阵列包括线性阵列;所述阵列形状信息包括麦克风之间的距离;所述麦克风指向方向包括垂直于阵列指向一侧。
[0010]可选的,所述阵列包括圆形阵列;所述阵列形状信息包括圆形阵列半径;所述麦克风指向方向为麦克风相对圆形阵列圆心的方向。
[0011]可选的,所述根据所述导向矢量和所述语音信号,确定声源方向信息,包括:根据所述导向矢量和所述语音信号,确定空间谱;根据所述空间谱,确定所述声源方向信息。
[0012]可选的,所述根据所述空间谱,确定所述声源方向信息,包括:将能量响应数据排在前面的方向作为声源方向。
[0013]本申请还提供一种声源定位装置,包括:声音采集单元,用于通过指向性麦克风阵列采集多通道语音信号;导向矢量确定单元,用于根据阵列形状信息和麦克风指向方向信息,确定包括相位信息和振幅信息的导向矢量;声源方向确定单元,用于根据所述导向矢量和所述语音信号,确定声源方向信息。
[0014]本申请还提供一种会议系统,包括:声源定位装置和发言者跟踪装置。
[0015]本申请还提供一种拾音设备,包括:指向性麦克风阵列;处理器和存储器;存储器,用于存储实现上述方法的程序,该设备通电并通过所述处理器运行该方法的程序。
[0016]本申请还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述各种方法。
[0017]本申请还提供一种包括指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述各种方法。
[0018]与现有技术相比,本申请具有以下优点:本申请实施例提供的声源定位方法,通过指向性麦克风阵列采集多通道语音信号;根据阵列形状信息和麦克风指向方向信息,确定包括相位信息和振幅信息的导向矢量;根据所述导向矢量和所述语音信号,确定声源方向信息。采用这种处理方式,使得在确定导向矢量时同时考虑相位信息和振幅信息,这样可以有效提升声源定位的准确度。
[0019]本申请实施例提供的会议发言展示系统,终端设备通过指向性麦克风阵列采集会议空间的多通道语音信号;根据阵列形状信息和麦克风指向方向信息,确定包括相位信息和振幅信息的导向矢量;根据所述导向矢量和所述语音信号,确定会议发言用户的位置信息;将所述语音信号和所述位置信息发送至服务端;服务端通过语音识别算法,将所述语音信号转换为会议发言文本;根据所述位置信息,确定不同会议发言用户的会议发言文本;终端设备展示不同会议发言用户的会议发言文本。采用这种处理方式,使得在确定导向矢量
时同时考虑相位信息和振幅信息,这样可以有效提升会议发言用户定位的准确度,进而提升会议发言展示的准确度。
附图说明
[0020]图1本申请提供的声源定位方法的实施例的流程示意图;图2本申请提供的声源定位方法的实施例的线性阵列示意图;图3本申请提供的声源定位方法的实施例的具体流程示意图;图4本申请提供的会议发言展示系统实施例的应用场景示意图。
具体实施方式
[0021]在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
[0022]在本申请中,提供了会议发言展示系统,声源定位方法和装置,会议系统,拾音设备。在下面的实施例中逐一对各种方案进行详细说明。
[0023]第一实施例本申请实施例提供了声源定位方法,可用于拾音设备、音视频会议终端等,所述设备包括指向性麦克风阵列,而非全向性麦克风阵列。
[0024]请参看图1,其为本申请的声源定位方法的实施例的流程示意图。在本实施例中,所述方法可包括如下步骤:步骤S101:通过指向性麦克风阵列采集多通道语音信号。
[0025]所述指向性麦克风,包括但不限于:心形,超心形,枪型,双指向式。
[0026]所述麦克风阵列,可以是圆形阵列或者线性阵列,也可以是其它几何形状的阵列,如方形阵列、三角形阵列等,还可以是不规则几何形状的阵列。
[0027]步骤S103:根据阵列形状信息和麦克风指向方向信息,确定包括相位信息和振幅信息的导向矢量本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种会议发言展示系统,其特征在于,包括:终端设备,用于通过指向性麦克风阵列采集会议空间的多通道语音信号;根据阵列形状信息和麦克风指向方向信息,确定包括相位信息和振幅信息的导向矢量;根据所述导向矢量和所述语音信号,确定会议发言用户的位置信息;将所述语音信号和所述位置信息发送至服务端;以及,展示服务端回送的不同会议发言用户的会议发言文本;服务端,用于通过语音识别算法,将所述语音信号转换为会议发言文本;根据所述位置信息,确定不同会议发言用户的会议发言文本。2.一种声源定位方法,其特征在于,包括:通过指向性麦克风阵列采集多通道语音信号;根据阵列形状信息和麦克风指向方向信息,确定包括相位信息和振幅信息的导向矢量;根据所述导向矢量和所述语音信号,确定声源方向信息。3.根据权利要求2的方法,其特征在于,所述根据阵列形状信息和麦克风指向方向信息,确定包括相位信息和振幅信息的导向矢量,包括:根据阵列形状信息,确定相位差;根据麦克风指向方向信息,确定振幅响应;根据相位差和振幅响应,确定所述导向矢量。4.根据权利要求2的方法,其特征在于,所述阵列包括线性阵列;所述阵列形状信息包括麦克风之间的距离;所述麦...

【专利技术属性】
技术研发人员:陈维广黄伟隆冯津伟
申请(专利权)人:阿里巴巴达摩院杭州科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1