一种多通道语音信号同步方法及装置制造方法及图纸

技术编号:13797089 阅读:125 留言:0更新日期:2016-10-06 17:29
本发明专利技术提供一种多通道语音信号同步方法及装置。方法包括:选定通道作为模板通道,生成相应的语音信号能量包络模板;分别将各其他通道的语音信号与所述能量包络模板进行匹配,以分别确定所述各其他通道的语音信号与所述模板通道的语音信号之间的偏移值;根据所述偏移值,分别将所述各其他通道的语音信号与所述模板通道的语音信号进行同步。本发明专利技术解决了现有技术采用人工手动调整的方式,对多通道语音信号进行同步不仅浪费人力资源,而且效率很低的问题。

【技术实现步骤摘要】

本专利技术实施例涉及语音信号处理领域,尤其涉及一种多通道语音信号同步方法及装置
技术介绍
目前,在语音信号处理领域,经常需要从多通道分别采集语音信号,以用于抗噪、语音识别等方面的研究,其中,所述多通道中包含的每一个通道均可以是任意语音采集设备提供的一个语音信号输入或输出通道。但是,在实际应用中,从多通道分别采集到的语音信号(以下简称为:多通道语音信号)相互之间可能并不是同步的(也即,在时间轴上可能未对齐)。例如,为了研究在远场与近场对同一个声源的感知关系,可以用一个语音采集设备(如手机)在距离该声源较近的地方进行录音,并用另一个语音采集设备(如麦克风)在距离该声源较远的地方进行录音,但是,由于该手机和麦克风可能不会同时开始录音,因此,从手机的通道与麦克风的通道采集到的语音信号可能是不同步的。而将诸如上例中的不同步的多通道语音信号用于后续研究,可能会降低研究结果的可靠性。针对上述问题,在现有技术中,一般采用人工手动调整的方式,对不同步的多通道语音信号进行同步,具体的,研究者可以分别观察多通道语音信号中各个通道的语音信号的波形,然后根据波形的形状手动地将多通道信号同步。但是,这种同步方法不仅浪费人力资源,而且效率很低。
技术实现思路
本专利技术实施例提供一种多通道语音信号同步方法及装置,用以解决现有技术采用人工手动调整的方式,对多通道语音信号进行同步不仅浪费人力资源,而且效率和精确度很低的问题。本专利技术实施例提供一种多通道语音信号同步方法,包括:选定通道作为模板通道,生成相应的语音信号能量包络模板;分别将各其他通道的语音信号的能量包络与所述能量包络模板进行匹配,以分别确定所述各其他通道的语音信号与所述模板通道的语音信号之间的偏移值;根据所述偏移值,分别将所述各其他通道的语音信号与所述模板通道的语音信号进行同步。本专利技术实施例还提供一种多通道语音信号同步装置,包括:生成模块,用于选定通道作为模板通道,生成相应的语音信号能量包络模板;确定模块,用于分别将各其他通道的语音信号与所述能量包络模板进行匹配,以分别确定所述各其他通道的语音信号与所述模板通道的语音信号之间的偏移值;同步模块,用于根据所述偏移值,分别将所述各其他通道的语音信号与所述模板通道的语音信号进行同步。本专利技术实施例提供的多通道语音信号同步方法及装置,通过在各通道截取波形片段的能量包络与模板通道截取的波形片段生成的能量包络模板进行匹配,确定各通道与模板通道语音信号的偏移值,通过各通道语音信号与模板通道语音信号偏移值的截取,实现多通道语音信号的同步,从而节省了人力,提高了效率。解决了现有技术采用人工手动调整的方式,对多通道语音信号进行同步不仅浪费人力资源,而且效率很低的问题。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的多通道语音信号同步过程;图2为本专利技术实施例提供的,通过将选定滑动窗在波形片段中滑动,计算该波形片段的能量向量的示意图;图3为本专利技术实施例提供的,在实际应用中,采用选定的参数值,根据模板通道的语音信号,生成能量包络模板的过程;图4为本专利技术实施例提供的,针对每个其他通道的语音信号,确定该其他通道的语音信号与模板通道的语音信号之间的偏移值的过程;图5为本专利技术实施例提供的,一个其他通道的语音信号与模板通道的语音信号之间的偏移值示意图;图6为本专利技术实施例提供的,对多通道语音信号进行并行处理以及同步的过程简图;图7为本专利技术实施例提供的多通道语音信号同步装置结构示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。图1为本专利技术实施例提供的多通道语音信号同步过程,具体包括以下步骤:S101:选定通道作为模板通道,生成相应的语音信号能量包络模板。本专利技术实施例的执行主体可以是可用于对语音信号进行处理的任一设备。所述设备包括但不限于:个人计算机、智能手机、平板电脑、智能电视、智能手表、智能手环、车载台、大中型计算机、计算机集群,等等。所述的执行主体并不构成对本专利技术的限定。在本专利技术实施例中,可以采用多通道从同一声源采集语音信号,所述多通道可以包括被选定的模板通道和至少一个其他通道。所述能量包络模板可以是从模板通道的语音信号中的一部分或者全部提取出来的、在能量包络方面的单一特征或组合特征。当然除了能量包络以外,也可以从模板通道的语音信号中提取音量、频率、音色、波形形状等方面的特征,作为用于后续匹配的模板。S102:分别将各其他通道的语音信号与所述能量包络模板进行匹配,以分别确定所述各其他通道的语音信号与所述模板通道的语音信号之间的偏移值。在本专利技术实施例中,所述模板通道的语音信号和所述各其他通道的语音信号即为待同步的多通道语音信号。在生成能量包络模板后,可以采用生成能量包络模板的方法,对各其他通
道的语音信号进行类似的处理,进而可分别在各其他通道的语音信号上,确定出与模板通道的语音信号在时间轴上相互对应的部分,以及所述相互对应的部分之间在时间轴上的偏移值,以用于后续同步。S103:根据所述偏移值,分别将所述各其他通道的语音信号与所述模板通道的语音信号进行同步。在本专利技术实施例中,根据所述偏移值,可以确定在模板通道的语音信号和各其他通道的语音信号中,任意两个通道的语音信号在时间轴上相差的时间(可以是任意两个通道的语音信号中相对应的波形片段在时间轴上的取值之差),从而,可以通过在时间轴上平移和/或剪裁的方式,将模板通道的语音信号和各其他通道的语音信号在时间轴上对齐,以实现多通道语音信号同步。通过上述方法,可以由设备自动地对多通道语音信号进行同步,从而节省了人力,提高了效率,因此,解决了现有技术采用人工手动调整的方式对多通道语音信号进行同步不仅浪费人力资源,而且效率很低的问题。在本专利技术实施例中,对于上述步骤S101,生成相应的语音信号能量包络模板,具体包括:从模板通道的语音信号中截取波形片段,计算所述波形片段的能量包络,作为生成相应的语音信号能量包络模板。截取的波形片段可以是在模板通道的语音信号中,波形变化比较显著的部分,或者是与其他部分相比波形差异较大的部分,等等。这样的话,后续更容易匹配,且匹配结果和同步结果更加可靠。本专利技术对截取的波形片段的长度并不做限定,一般的,截取的波形片段的长度越长,后续匹配结果更加可靠,但相应的,后续处理时间也越长,在大部分应用场景下,可以将截取的波形片段的长度设置为5秒左右。另外,在截取波形片段时,还需要考虑预估的各其他通道的语音信号与模板通道的语音信号之间最大的偏移值(以下简称为预估最大偏移值)。假定模板通道的语音信号比其他通道的语音信号在时间轴上领先(模板通道开始采集语音信号的时间点比其他通道开始语音信号的时间点早),则若本文档来自技高网
...

【技术保护点】
一种多通道语音信号同步方法,其特征在于,包括:选定通道作为模板通道,生成相应的语音信号能量包络模板;分别将各其他通道的语音信号的能量包络与所述能量包络模板进行匹配,以分别确定所述各其他通道的语音信号与所述模板通道的语音信号之间的偏移值;根据所述偏移值,分别将所述各其他通道的语音信号与所述模板通道的语音信号进行同步。

【技术特征摘要】
1.一种多通道语音信号同步方法,其特征在于,包括:选定通道作为模板通道,生成相应的语音信号能量包络模板;分别将各其他通道的语音信号的能量包络与所述能量包络模板进行匹配,以分别确定所述各其他通道的语音信号与所述模板通道的语音信号之间的偏移值;根据所述偏移值,分别将所述各其他通道的语音信号与所述模板通道的语音信号进行同步。2.根据权利要求1所述的方法,其特征在于,生成相应的语音信号能量包络模板,具体包括:从所述模板通道的语音信号中截取波形片段;对所述波形片段进行采样抽取,确定出第一设定数量个采样点;将选定滑动窗在所述波形片段中按照设定方式滑动,根据滑动过程中所述选定滑动窗内包含的各所述采样点,计算所述波形片段的能量向量,作为生成的相应的语音信号能量包络模板。3.根据权利2要求所述的方法,其特征在于,针对每个所述其他通道的语音信号,按照如下方法,确定所述其他通道的语音信号与所述模板通道的语音信号之间的偏移值:从所述其他通道的语音信号的起始处开始,采用从所述模板通道的语音信号中截取的波形片段所使用的方法,依次截取第二设定数量个的、长度与从所述模板通道的语音信号中截取的波形片段的长度相同的波形片段;采用所述模板通道的波形片段的采样抽取以及能量包络计算方法分别对所述第二设定数量个的波形片段进行采样抽取,并计算对应的能量包络;在所述第二设定数量个的波形片段中,确定对应的能量包络与从所述模板通道的语音信号中截取的波形片段的能量包络最匹配的波形片段;确定所述能量包络最匹配的波形片段与从所述模板通道的语音信号中截取的波形片段在时间轴上的差值,作为所述其他通道的语音信号与所述模板通道的语音信号之间的偏移值。4.根据权利要求2所述的方法,其特征在于,将选定滑动窗在所述波形片段中按照设定方式滑动,根据滑动过程中所述选定滑动窗内包含的各所述采
\t样点,计算所述波形片段的能量向量,具体包括:将选定滑动窗按照设定滑动步长在所述波形片段中滑动m次,生成所述波形片段的m维能量向量,其中,所述m维能量向量中的第i维的取值为所述选定滑动窗在第i次滑动后,所述选定滑动窗内包含的各所述采样点的平均能量,m,i为正整数,i小于等于m。5.根据权利要求4所述的方法,其特征在于,在所述第二设定数量个的波形片段中,确定对应的能量包络与从所述模板通道的语音信号中截取的波形片段的能量包络最匹配的波形片段,具体包括:将从所述模板通道的语音信号中截取的波形片段对应的m维能量向量记作[x1,x2,...,xm],将在所述第二设定数量个的波形片段中,第n个波形片段对应的m维能量向量记作[yn1,yn2,...,ynm],其中,n等于所述第二设定数量;计算[yn1,yn2,...,ynm]与kn×[x1,x2,...,xm]之间的距离,其中,kn为能量增益系数, k n = Σ i ...

【专利技术属性】
技术研发人员:王育军
申请(专利权)人:乐视致新电子科技天津有限公司
类型:发明
国别省市:天津;12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1