基于退化分离估计技术的语音分离方法和系统技术方案

技术编号:30149624 阅读:30 留言:0更新日期:2021-09-25 14:56
公开了基于DUET算法的语音分离方法和系统。所述方法包括:接收来自传声器的信号;对接收的信号进行傅立叶变换(S110);计算每个数据点的相对衰减参数和相对延迟参数(S120);基于传声器之间的距离和传声器的采样频率选择相对延迟参数的聚类范围;将相对延迟参数的聚类范围内的数据点聚类成子集(S130);以及对每个子集进行逆傅立叶变换(S140)。它提供一种高效且智能的解决方案来在软件和/或硬件上部署DUET。DUET。DUET。

【技术实现步骤摘要】
【国外来华专利技术】基于退化分离估计技术的语音分离方法和系统


[0001]本公开涉及语音处理,且更具体地涉及基于退化分离估计技术(DUET)算法的语音分离方法和系统。

技术介绍

[0002]由于智能生活方式和联网汽车的需求不断增加,语音分离作为人机交互系统的关键部分在行业中已经无处不在。语音分离的方法主要有两种,其中一种是使用传声器阵列来实现言语增强,并且另一种是使用盲源分离算法,诸如频域独立分量分析(FDICA)、退化分离估计技术(DUET)算法或者它们的扩展算法。
[0003]DUET算法可以仅使用两种混音来分离任意数量的源,这非常适合在相对较小的空间内进行语音分离。即使在源数量大于混音数量的情况下,该技术也是有效的。DUET算法基于从混音中提取的相对延迟和衰减对来分离言语。但是,DUET算法中对相对延迟和衰减进行聚类的合适范围很重要但很模糊,因为该范围通常是基于经验选择的,并且如果选定的范围内部有很多无效数据点,则相位包裹效应可能不可忽略。因此,需要选择合适的聚类范围以改善语音分离的方法和系统。
[0004]此外,DUET算法通常需要对源进行时间同步,而传统的时间同步方法可能达不到要求,因为传声器的采样频率可能高达几十千赫兹或更高,而系统时间通常是以毫秒为单位。因此,下面提出新的方法和系统来实现更准确的时间同步。

技术实现思路

[0005]根据本公开的一个方面,提供了一种基于DUET的语音分离方法,该方法包括:接收来自传声器的信号;对接收的信号进行傅立叶变换;计算每个数据点的相对衰减参数和相对延迟参数;基于传声器之间的距离和传声器的采样频率选择相对延迟参数的聚类范围;将相对延迟参数的聚类范围内的数据点聚类成子集;以及对每个子集进行逆傅立叶变换。
[0006]通常,相对衰减参数的范围可以设置为常数。
[0007]通常,该方法可以在车辆的主机单元中实施。此外,可在诸如室内环境(例如,办公室、家里、商场)、室外环境(例如,自动服务终端、车站)等其他环境中实施该方法。
[0008]通常,选择相对延迟参数的聚类范围的步骤还基于语音中的最大频率。
[0009]通常,相对延迟参数的聚类范围与传声器之间的距离以及声音的速度与言语中最大频率之间的比率之间的关系有关。
[0010]通常,就采样点而言,相对延迟参数的聚类范围可以由下式给出:
[0011][0012]其中f
s
是传声器的采样频率,d是传声器之间的距离,f
max
是言语中的最大频率,c是声音的速度,并且n0是传声器在数据点方面的最大同步误差。
[0013]通常,该方法可以由扬声器生成同步声音以同步由传声器接收的信号。同步声音
可以是一次或周期性生成的,并且可以是超声波,使得人是听不见的。在同步之后,传声器在数据点方面的最大同步误差(n0)可能等于0。
[0014]根据本公开的另一个方面,提供了一种基于DUET的语音分离系统,该系统包括:录音模块,其被配置为存储从传声器接收的信号;处理器,其被配置为对接收的信号进行傅立叶变换,计算每个数据点的相对衰减参数和相对延迟参数,基于传声器之间的距离和传声器的采样频率选择相对延迟参数的聚类范围,将相对延迟参数的聚类范围内的数据点聚类成子集,以及对每个子集进行逆傅立叶变换。
[0015]该系统可以被包括在车辆的主机单元中。此外,可在诸如室内环境(例如,办公室、家里、商场)、室外环境(例如,自动服务终端、车站)等其他环境中实施该系统。
[0016]该系统还可以包括扬声器,该扬声器被配置为生成同步信号以同步从传声器接收的信号,并且该系统还可以包括同步和滤波模块,该同步和滤波模块被配置为将从传声器接收的信号与同步信号同步并从接收的信号中滤除同步信号。
[0017]根据本公开,可以提供一种高效且智能的解决方案来在软件和/或硬件上部署DUET。还可以提供一种解决方案来实现DUET要处理的信号的更准确的时间同步。
[0018]通过对实施方案的以下描述将清楚本公开的意义和益处。然而,应理解,那些实施方案仅仅是可如何实施本专利技术的示例,并且用于描述本专利技术的术语的含义不限于其中将它们用于描述实施方案的特定含义。
[0019]在审查了附图和具体实施方式之后,本公开的其他系统、方法、特征和优点对于本领域技术人员来说将明显或将变得明显。希望所有此类额外的系统、方法、特征和优点包括于本说明书内、位于本公开的范围内并且受到所附权利要求保护。
附图说明
[0020]参考附图和描述,可更好地理解本公开。附图中的部件不一定按比例,而是强调说明本公开的原理。另外,在附图中,相同的附图标记在所有不同视图中标示对应的部分。
[0021]图1是根据本公开的实施方案的基于DUET的语音分离方法的流程图;
[0022]图2A是示出根据本公开的实施方案的数据点的相对衰减和相对延迟对的聚类子集的示例的示意图,并且图2B是示出其中出现相位包裹效应的数据点的相对衰减和相对延迟对的子集的示例的示意图;
[0023]图3是根据本公开的实施方案的基于DUET的语音分离系统的框图;
[0024]图4A和图4B是示出通过使用本公开的语音分离系统的示例对车辆中四名乘客的言语的聚类结果的图表,其中图4B是图4A的俯视图;
[0025]图5是根据本公开的实施方案的语音分离系统的框图;并且
[0026]图6是根据本公开的实施方案的语音分离的流程图。
具体实施方式
[0027]以下,将参考附图更详细地描述本公开的优选实施方案。在本公开的以下描述中,当可能使本公开的主题不清楚时,将省略对并入在本文中的已知功能和配置的详细描述。
[0028]本公开提供基于DUET的语音分离方法和系统。图1是一种基于DUET的语音分离方法的流程图。该方法可用于各种环境,诸如车厢、办公室、家里、商场、自动服务终端、车站
等。
[0029]如图1所示,传声器(示出两个传声器作为示例)接收声音并对声音进行采样,其中可能包括多个源。传声器的采样频率可以在千赫、几十千赫或甚至更高的数量级。更高的采样频率将有利于分离过程,因为在离散化过程中丢失的信息更少。如果声音包括多个源,则传声器1采样的信号和传声器2采样的信号将是每个都包括来自多个源的信号的混音。
[0030]从传声器1和传声器2接收的信号输入到DUET模块(图1中未示出),该DUET模块进行信号分离(如图1中虚线框所示)。
[0031]首先,对接收信号进行傅立叶变换(例如,短时傅立叶变换、加窗傅立叶变换)以输出大量时频数据点(步骤S110)。
[0032]为了分割时频数据点,计算每个数据点的相对延迟和相对衰减参数,其中相对延迟参数与从源到两个传声器的到达时间之间的时间差相关,并且相对衰减参数对应于源和两个传声器之间的路径衰减的比率(步骤S120)。对应于源中的一个的相对延迟和相对衰减对应该分别与对应于源中的另一个的相对延迟和相对衰减对本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种基于退化分离估计技术(DUET)的语音分离方法,其包括:接收来自传声器的信号;对接收的信号进行傅立叶变换;计算每个数据点的相对衰减参数和相对延迟参数;基于所述传声器之间的距离和所述传声器的采样频率选择所述相对延迟参数的聚类范围,将所述相对延迟参数的所述聚类范围内的数据点聚类成子集,以及对每个子集进行逆傅立叶变换。2.如权利要求1所述的方法,其中选择所述相对延迟参数的所述聚类范围还基于语音中的最大频率。3.如权利要求1所述的方法,其还包括将所述相对衰减的范围设置为常数。4.如权利要求1

3中任一项所述的方法,其中所述相对延迟参数的所述聚类范围由下式给出:其中f
s
是所述传声器的所述采样频率,d是所述传声器之间的所述距离,f
max
是言语中的所述最大频率,c是声音的速度,并且n0是所述传声器在数据点方面的最大同步误差。5.如权利要求1所述的方法,其还包括由扬声器生成同步声音以同步所述接收的信号。6.如权利要求5所述的方法,其还包括从所述接收的信号中滤除所述同步声音。7.如权利要求5所述的方法,其中所述同步声音是一次或周期性地生成的。8.如权利要求5所述的方法,其中所述同步声音是超声波。9.如权利要求1或5所述的方法,当并且从所述传声器接收的所述信号同步时,所述相对延迟参数的所述聚类范围由给出,其中f
s
是所述传声器的所述采样频率,d是所述传声器之间的所述距离,f
max
是所述言语中的所述最大频率,c是所述声音的所述速度。10.一种基于退化分离估计技术(DUET)的语音分离系统,其包括录音模块,其被配置为存储从传声器接收的信号;处理器,其被配置为对接收的信号进行傅立叶变换;计算每个数据点的相对衰减参数和相对延迟参数;基于所述传声器之间的距离和所述传声器的采样频率选择所述相对延迟参数的聚类范围,将所述相对延迟参数的所述聚类范围内的数据点...

【专利技术属性】
技术研发人员:谢由页毕相如张青山张国霞
申请(专利权)人:哈曼国际工业有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1