一种语音切分的方法、装置、设备和计算机存储介质制造方法及图纸

技术编号:20047518 阅读:49 留言:0更新日期:2019-01-09 05:00
本发明专利技术提供了一种语音切分的方法、装置、设备和计算机存储介质,其中方法包括:确定第一语音与第二语音的互相关度,其中所述第二语音为对所述第一语音进行录制后得到的语音,所述第一语音由两个以上的第一语音段拼接而成;基于所述互相关度对时间标签进行校准,所述时间标签包含各第一语音段在第一语音中的开始时间和结束时间;利用校准后的时间标签,对所述第二语音进行切分,得到两个以上的第二语音段。本发明专利技术能够使得校准后的时间标签与第二语音更好地对齐,从而提高对第二语音的切分准确性。

【技术实现步骤摘要】
一种语音切分的方法、装置、设备和计算机存储介质
本专利技术涉及计算机应用
,特别涉及一种语音切分的方法、装置、设备和计算机存储介质。
技术介绍
随着人工智能技术的飞速发展,语音技术因其便捷、无障碍的交互方式,使其成为人工智能交互的主要方式。在近场语音识别技术逐步成熟的前提下,远场语音识别逐渐成为关注的课题。通过远场语音识别,用户能够在较远距离与智能设备进行语音交互,例如与智能电视、智能音箱等进行语音交互。远场语音识别是通过远场声学模型实现的,在训练远场声学模型时需要大量的远场语音数据。而现阶段,远场语音产品的真实数据较少,无法满足远场声学模型的训练需求。而近场语音数据的数量较多,因此目前采用的方式是通过对近场语音数据进行重新录制的方式获得远场语音数据。具体地,将多个近场语音段按照一定的顺序拼接成长语音,进行重新录制后得到远场的长语音;然后对远场的长语音进行切分,从而得到多个语音段以供训练远场声学模型使用。其中在对远场的长语音进行切分时,目前采用的方式是基于时间标签的长语音切分方式。其中时间标签是在拼接形成长语音时,各近场语音段在长语音中的起止时间。然而,由于录制设备存在时钟频率不稳定的问题,因此基于时间标签的长语音切分方式会造成切分不准确的问题,例如切分后得到的语音段存在截断,从而进一步导致得到的远场语音数据不符合训练要求。
技术实现思路
有鉴于此,本专利技术提供了一种语音切分的方法、装置、设备和计算机存储介质,以便于提高对录制语音的切分准确性。具体技术方案如下:本专利技术提供了一种语音切分的方法,该方法包括:确定第一语音与第二语音的互相关度,其中所述第二语音为对所述第一语音进行录制后得到的语音,所述第一语音由两个以上的第一语音段拼接而成;基于所述互相关度对时间标签进行校准,所述时间标签包含各第一语音段在第一语音中的开始时间和结束时间;利用校准后的时间标签,对所述第二语音进行切分,得到两个以上的第二语音段。根据本专利技术一优选实施方式,该方法还包括:对两个以上的第一语音段进行排序后,拼接成所述第一语音;对各第一语音段在第一语音中的开始时间和结束时间进行标记,生成所述时间标签;对所述第一语音进行录制,得到所述第二语音。根据本专利技术一优选实施方式,该方法还包括:切除录制得到的所述第二语音中开始位置的静音段。根据本专利技术一优选实施方式,切除所述第二语音中开始位置的静音段包括:利用语音活动检测VAD模型对所述第二语音进行语音端点检测,将首个语音端点之前的各静音帧切除。根据本专利技术一优选实施方式,所述确定第一语音与第二语音的互相关度包括:从所述第一语音和第二语音中截取对应相同第一时段的语音;将从第一语音中截取的语音和从第二语音中截取的语音进行互相关度计算。根据本专利技术一优选实施方式,基于所述互相关度对时间标签进行校准包括:基于所述互相关度确定所述第二语音的开始时间;利用确定出的所述第二语音的开始时间对时间标签进行校准。根据本专利技术一优选实施方式,基于所述互相关度确定所述第二语音的开始时间包括:利用所述互相关度中最大值对应的时间位置,以及参与该相关度计算的第二语音的长度,确定所述第二语音的开始时间。根据本专利技术一优选实施方式,利用确定出的所述第二语音的开始位置对时间标签进行校准包括:利用时间标签中各时间与确定出的所述第二语音的开始位置的差值,得到校准后时间标签中对应的各时间,所述时间标签中各时间包括各第一语音段的开始时间和结束时间。根据本专利技术一优选实施方式,预先将所述第二语音切分为N段子语音,所述N为1以上的正整数;针对所述N段子语音,分别执行所述语音切分的方法。根据本专利技术一优选实施方式,所述第一语音段为近场短语音数据;所述第二语音段为远场短语音数据,作为远场声学模型的训练数据。本专利技术还提供了一种语音切分的装置,该装置包括:确定单元,用于确定第一语音与第二语音的互相关度,其中所述第二语音为对所述第一语音进行录制后得到的语音,所述第一语音由两个以上的第一语音段拼接而成;校准单元,用于基于所述互相关度对时间标签进行校准,所述时间标签包含各第一语音段在第一语音中的开始时间和结束时间;切分单元,用于利用校准后的时间标签,对所述第二语音进行切分,得到两个以上的第二语音段。根据本专利技术一优选实施方式,该装置还包括:拼接单元,用于对两个以上的第一语音段进行排序后,拼接成所述第一语音;标记单元,用于对各第一语音段在第一语音中的开始时间和结束时间进行标记,生成所述时间标签;录制单元,用于对所述第一语音进行录制,得到所述第二语音。根据本专利技术一优选实施方式,该装置还包括:切除单元,用于切除录制得到的所述第二语音中开始位置的静音段。根据本专利技术一优选实施方式,所述确定单元,具体执行:从所述第一语音和第二语音中截取对应相同第一时段的语音;将从第一语音中截取的语音和从第二语音中截取的语音进行互相关度计算。根据本专利技术一优选实施方式,所述校准单元,具体执行:基于所述互相关度确定所述第二语音的开始时间;利用确定出的所述第二语音的开始位置对时间标签进行校准。本专利技术还提供了一种设备,所述设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现上述的方法。本专利技术还提供了一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行上述的方法。由以上技术方案可以看出,本专利技术基于被录的第一语音和录制得到的第二语音之间的互相关度对时间标签进行校准,利用校准后的时间标签对第二语音进行切分,使得校准后的时间标签与第二语音更好地对齐,从而提高对第二语音的切分准确性。【附图说明】图1为本专利技术实施例提供的主要方法流程图;图2为本专利技术实施例提供的对录制长语音进行切分得到远场短语音的方法流程图;图3为本专利技术实施例提供的装置结构图;图4示出了适于用来实现本专利技术实施方式的示例性计算机系统/服务器的框图。【具体实施方式】为了使本专利技术的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本专利技术进行详细描述。图1为本专利技术实施例提供的主要方法流程图,如图1中所示,该方法可以包括以下步骤:在101中,确定第一语音与第二语音的互相关度,其中第二语音为对第一语音进行录制后得到的语音,第一语音由两个以上的第一语音段拼接而成。在102中,基于确定出的互相关度对时间标签进行校准,其中时间标签包含各第一语音段在第一语音中的开始时间和结束时间。在103中,利用校准后的时间标签,对第二语音进行切分,得到两个以上的第二语音段。针对现有切分方式中存在的问题,究其原因,是由于录制设备存在时钟频率不稳定,导致时间标签与录制语音无法对齐。从图1所示的流程可以看出,本申请的核心思想在于利用拼接得到的第一语音与录制得到的第二语音之间的互相关度,对时间标签进行校准,从而使得校准后的时间标签能够更好地与第二语音对齐。图1所示的流程可以应用但不限于
技术介绍
中所涉及的应用场景,还可以应用于诸如与语音相关的播放测试语音的切分。但在本申请后续实施例中,均以录制近场语音数据得到录制长语音后,对录制长语音进行切分得到远场短语音数据为例,对本申请所提供的方法进行详细描述。图2为本专利技术实施例提供的对录制长语音进行切分得到远场短语音本文档来自技高网
...

【技术保护点】
1.一种语音切分的方法,其特征在于,该方法包括:确定第一语音与第二语音的互相关度,其中所述第二语音为对所述第一语音进行录制后得到的语音,所述第一语音由两个以上的第一语音段拼接而成;基于所述互相关度对时间标签进行校准,所述时间标签包含各第一语音段在第一语音中的开始时间和结束时间;利用校准后的时间标签,对所述第二语音进行切分,得到两个以上的第二语音段。

【技术特征摘要】
1.一种语音切分的方法,其特征在于,该方法包括:确定第一语音与第二语音的互相关度,其中所述第二语音为对所述第一语音进行录制后得到的语音,所述第一语音由两个以上的第一语音段拼接而成;基于所述互相关度对时间标签进行校准,所述时间标签包含各第一语音段在第一语音中的开始时间和结束时间;利用校准后的时间标签,对所述第二语音进行切分,得到两个以上的第二语音段。2.根据权利要求1所述的方法,其特征在于,该方法还包括:对两个以上的第一语音段进行排序后,拼接成所述第一语音;对各第一语音段在第一语音中的开始时间和结束时间进行标记,生成所述时间标签;对所述第一语音进行录制,得到所述第二语音。3.根据权利要求2所述的方法,其特征在于,该方法还包括:切除录制得到的所述第二语音中开始位置的静音段。4.根据权利要求3所述的方法,其特征在于,切除所述第二语音中开始位置的静音段包括:利用语音活动检测VAD模型对所述第二语音进行语音端点检测,将首个语音端点之前的各静音帧切除。5.根据权利要求1所述的方法,其特征在于,所述确定第一语音与第二语音的互相关度包括:从所述第一语音和第二语音中截取对应相同第一时段的语音;将从第一语音中截取的语音和从第二语音中截取的语音进行互相关度计算。6.根据权利要求1所述的方法,其特征在于,基于所述互相关度对时间标签进行校准包括:基于所述互相关度确定所述第二语音的开始时间;利用确定出的所述第二语音的开始时间对时间标签进行校准。7.根据权利要求6所述的方法,其特征在于,基于所述互相关度确定所述第二语音的开始时间包括:利用所述互相关度中最大值对应的时间位置,以及参与该相关度计算的第二语音的长度,确定所述第二语音的开始时间。8.根据权利要求6所述的方法,其特征在于,利用确定出的所述第二语音的开始位置对时间标签进行校准包括:利用时间标签中各时间与确定出的所述第二语音的开始位置的差值,得到校准后时间标签中对应的各时间,所述时间标签中各时间包括各第一语音段的开始时间和结束时间。9.根据权利要求1所述的方法,其特征在于,预先...

【专利技术属性】
技术研发人员:孙建伟
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1