一种多设备录音的自动切分对齐方法技术

技术编号:17939787 阅读:40 留言:0更新日期:2018-05-15 20:10
本发明专利技术公开一种多设备录音的自动切分对齐方法,包括步骤:将不同形式的多个原始录音对应处理成同一格式的多个长时录音;将多个所述长时录音中所包含的相同长时录音进行关联;利用短时参考录音对相关联的长时录音分别进行对齐,然后切分成与所述短时参考录音对应的短时录音。本发明专利技术解决了录制多设备语音识别数据库的数据处理中复杂的问题。

An automatic segmentation and alignment method for multi device recording

The invention discloses an automatic segmentation and alignment method for multi device recording, which includes steps to process multiple original recordings in different forms into a plurality of long time recordings in the same format; relate the same long time recordings contained in a plurality of long time recordings, and use short time reference recordings for the related long time recordings. Do not alignment, and then cut into short time recording corresponding to the short reference recording. The invention solves complex problems in data processing of recording multi device speech recognition database.

【技术实现步骤摘要】
一种多设备录音的自动切分对齐方法
本专利技术涉及语音识别数据库制作
,涉及一种多设备录音的自动切分对齐方法。
技术介绍
在语音识别数据库制作过程中,通过利用多设备同时采集录音,可大幅提高录音的效率和多样性。例如,通过在录音中同时采集头戴麦克风、手机和麦克风阵列的信号,可保证信道的多样性,进而提高识别数据库的实用性,使得数据库可在远场识别、唤醒、降噪等应用中使用。由于同时存在近讲、远讲的对应数据,可方便评估远场识别、唤醒、降噪算法的性能。然而在多设备录音采集的过程中,由于录音设备不同,各录音设备无法在时间上同时开始录音(即同时按下录音开关或发出录音命令);部分录音设备的录音丢帧问题和录音过程中的操作失误,给语音识别数据的后期处理带来一定挑战。
技术实现思路
本专利技术的目的是针对现有技术中存在的技术缺陷,而提供一种用于语音识别数据库制作的多设备录音的自动切分对齐方法,通过以短时参考录音作为参考,实现自动分别地多个目标录音中的关联录音对齐,然后切分形成对应的短时录音存储在语音识别数据库中,从而实现将不同原始录音转化为语音识别系统可使用的短时录音。为实现本专利技术的目的所采用的技术方案是:一种多设备录音的自动切分对齐方法,包括步骤:将不同形式的多个原始录音对应处理成同一格式的多个长时录音;将多个所述长时录音中所包含的相同长时录音进行关联;利用短时参考录音对相关联的长时录音分别进行对齐,然后切分成与所述短时参考录音对应的短时录音。本专利技术中,所述长时录音是指不同录音设备自其录音开始时刻至结束时刻不间断采集的全部录音,包括有效录音与无效录音;所述短时录音指自所述长时录音中切分出的有效录音。本专利技术中,所述原始录音包括原始短时录音与原始长时录音,分别通过以下步骤形成所述长时录音;对原始长时录音,则在原始长时录音解压后进行统一格式转换,并按统一采样率对原始长时录音重新采样,从而形成所述长时录音;对原始短时录音,则在原始短时录音解压后进行统一格式转换,并按统一采样率对原始短时录音重新采样后,将原始短时录音根据时间戳拼接成所述长时录音。其中,利用短时参考录音对多个相关联的长时录音分别进行对齐,可以是采用在多个所述相关联的长时录音中分别搜索短时参考录音来实现。进一步的,利用短时参考录音对多个相关联的长时录音分别进行对齐,还可以采用下方式实现:分别截取相关联的长时录音和短时参考录音的头尾两段,计算相关联的长时录音和短时参考录音在录音开始阶段、结束阶段的录音偏移;根据所述录音偏移获取短时参考录音在相关联的长时录音中的位置,然后利用该短时参考录音在相关联的长时录音中切出对应的短录音。具体的,所述录音偏移的计算,可在原始时域信号上计算,或是在降噪后的时域信号上计算,或是在信号特征的域上计算。其中,所述短时参考录音可以是对参考录音设备录制的长时参考录音切分而形成,或是参考录音设备直接录制的短时录音。所述对参考录音设备录制的长时参考录音切分,是利用语音活动检测信息进行切分的。本专利技术中,将多个所述长时录音中所包含的相同长时录音进行关联,是通过读取长时录音的内容,通过计算多个长时录音的内容的相关度来实现。上述的所述相关度包括录音的时域相关度与音频特征序列的相关度。本专利技术的多设备录音的自动切分对齐方法,通过对多不同录音设备的原始录音格式统一后,自动关联目标录音文件、对目标录音利用参考短时录音进行对齐后切分,能自动将多录音设备录制的不同格式的原始录音转化为语音识别系统使用的短时录音,解决了录制多设备语音识别数据库的数据处理复杂的问题。附图说明图1是多设备录音的自动切分对齐方法的处理流程示意图;图2是对原始录音进行格式统一处理的流程示意图。具体实施方式以下结合附图和具体实施例对本专利技术作进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。参见图1-2所示,一种多设备录音的自动切分对齐方法,包括步骤:将不同形式的多个原始录音对应处理成同一格式的多个长时录音;将多个所述长时录音中所包含的相同长时录音进行关联;利用短时参考录音对相关联的长时录音分别进行对齐,然后切分成与所述短时参考录音对应的短时录音。所述切分成与所述短时参考录音对应的短时录音,存储在语音识别数据库中进行识别使用,从而实现将不同的原始录音转化为语音识别系统可使用的短时录音。其中,不同形式的多个原始录音由不同的录音输入设备,如图1所示,由录音设备1、录音设备2……录音设备N输入,首先通过格式统一处理的步骤,将不同形式的多个原始录音对应处理成同一格式的多个长时录音,然后将同一格式的长时录音中的同一录音文件中的相同的录音文件进行关联,然后利用短时参考录音对相关联的长时录音分别进行对齐后,进行切分,即可实现形成语音识别数据库存储的录音,然后由录音设备1、录音设备2……录音设备N分别输出到语音识别数据库存储。所述的原始录音,是来自于不同的录音设备,如头戴麦克风、手机和麦克风阵列等,由于各个录音设备的采集的录音的格式会存在不一致的可能,为了方便后续切分处理,本专利技术中,首先对不同的不同形式的多个原始录音对应处理成同一格式的多个长时录音,以便为后续处理提供处理的基础。由于录音设备的不同,在采集音频的过程中,有可能形成的原始录音是原始短时录音,也有可能是原始长时录音,因此,针对原始短时录音与原始长时录音的处理,分别通过以下步骤形成相应的长时录音;对原始长时录音,则在原始长时录音解压(与解密)后进行统一格式转换,并按统一采样率对原始长时录音重新采样,从而形成所述长时录音;对原始短时录音,则在原始短时录音解压(与解密)后进行统一格式转换,并按统一采样率对原始短时录音重新采样后,将原始短时录音根据时间戳信息,拼接成所述长时录音。对原始短时录音拼接具体可以是:若Sk为第k个原始短时录音(1≤k≤K),K为自然数,Sk对应的时间戳为tk=[tkstart,tkend],则对应时间戳t所拼接的长时录音S(t)为:Sk(t)为时间戳t对应的第k个原始短时录音;tkstart,tkend为Sk对应的时间戳的起始时刻与结束时刻。其中,短时参考录音,可以由相应的录音参考设备选取,录音参考设备可根据录音文件信噪比选取信噪比高的设备作为录音参考设备,也可以根据实际录音项目需求来选取录音参考设备。通过统一文件格式和采样率,并统一形成长时录音,方便后续处理。本专利技术中,所述长时录音是指不同录音设备自其录音开始时刻至结束时刻不间断采集的全部录音,包括有效录音与无效录音;由于各个录音设备的开始和/或结束的时间不一定相同,采集音频中间的重录、暂停等过程都包含在长时录音中。所述短时录音指自所述长时录音中按照切分规则所切分出的有效录音,通常为一完整的句子或段落等。由于不同录音设备的启动、停止时间不同以及部分录音设备在录音过程中可能出现丢帧,暂停现象,因此在对其他录音设备的录音切分时,需要将短时参考录音与目标长时录音(即关联的相同长时录音)先进行对齐处理。其中,利用短时参考录音对多个相关联的长时录音分别进行对齐,可以是采用在多个所述相关联的长时录音中分别搜索短时参考录音来实现,此方法需要对每句短录音都搜索,搜索范围比较大且容易导致对齐出错。进一步的,利用短时参考录音对多个相关联的长时录音分别进行对齐,还可以采本文档来自技高网...
一种多设备录音的自动切分对齐方法

【技术保护点】
一种多设备录音的自动切分对齐方法,其特征在于,包括步骤:将不同形式的多个原始录音对应处理成同一格式的多个长时录音;将多个所述长时录音中所包含的相同长时录音进行关联;利用短时参考录音对相关联的长时录音分别进行对齐,然后切分成与所述短时参考录音对应的短时录音。

【技术特征摘要】
1.一种多设备录音的自动切分对齐方法,其特征在于,包括步骤:将不同形式的多个原始录音对应处理成同一格式的多个长时录音;将多个所述长时录音中所包含的相同长时录音进行关联;利用短时参考录音对相关联的长时录音分别进行对齐,然后切分成与所述短时参考录音对应的短时录音。2.如权利要求1所述多设备录音的自动切分对齐方法,其特征在于,所述长时录音是指不同录音设备自其录音开始时刻至结束时刻不间断采集的全部录音,包括有效录音与无效录音;所述短时录音指自所述长时录音中切分出的有效录音。3.如权利要求1所述多设备录音的自动切分对齐方法,其特征在于,所述原始录音包括原始短时录音与原始长时录音,分别通过以下步骤形成所述长时录音;对原始长时录音,则在原始长时录音解压后进行统一格式转换,并按统一采样率对原始长时录音重新采样,从而形成所述长时录音;对原始短时录音,则在原始短时录音解压后进行统一格式转换,并按统一采样率对原始短时录音重新采样后,将原始短时录音根据时间戳拼接成所述长时录音。4.如权利要求1所述多设备录音的自动切分对齐方法,其特征在于,利用短时参考录音对多个相关联的长时录音分别进行对齐,是采用在多个所述相关联的长时录音中分别搜索短时参考录音来实现。5.如权利要求1所述多设备录音的自动切分...

【专利技术属性】
技术研发人员:吴妍郑羲光
申请(专利权)人:北京慧听科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1