一种语音切分的方法、装置、设备和计算机存储介质制造方法及图纸

技术编号：20047518 阅读：49 留言：0更新日期：2019-01-09 05:00

本发明专利技术提供了一种语音切分的方法、装置、设备和计算机存储介质，其中方法包括：确定第一语音与第二语音的互相关度，其中所述第二语音为对所述第一语音进行录制后得到的语音，所述第一语音由两个以上的第一语音段拼接而成；基于所述互相关度对时间标签进行校准，所述时间标签包含各第一语音段在第一语音中的开始时间和结束时间；利用校准后的时间标签，对所述第二语音进行切分，得到两个以上的第二语音段。本发明专利技术能够使得校准后的时间标签与第二语音更好地对齐，从而提高对第二语音的切分准确性。

全部详细技术资料下载

【技术实现步骤摘要】
一种语音切分的方法、装置、设备和计算机存储介质
本专利技术涉及计算机应用
，特别涉及一种语音切分的方法、装置、设备和计算机存储介质。
技术介绍
随着人工智能技术的飞速发展，语音技术因其便捷、无障碍的交互方式，使其成为人工智能交互的主要方式。在近场语音识别技术逐步成熟的前提下，远场语音识别逐渐成为关注的课题。通过远场语音识别，用户能够在较远距离与智能设备进行语音交互，例如与智能电视、智能音箱等进行语音交互。远场语音识别是通过远场声学模型实现的，在训练远场声学模型时需要大量的远场语音数据。而现阶段，远场语音产品的真实数据较少，无法满足远场声学模型的训练需求。而近场语音数据的数量较多，因此目前采用的方式是通过对近场语音数据进行重新录制的方式获得远场语音数据。具体地，将多个近场语音段按照一定的顺序拼接成长语音，进行重新录制后得到远场的长语音；然后对远场的长语音进行切分，从而得到多个语音段以供训练远场声学模型使用。其中在对远场的长语音进行切分时，目前采用的方式是基于时间标签的长语音切分方式。其中时间标签是在拼接形成长语音时，各近场语音段在长语音中的起止时间。然而，由于录制设备存在时钟频率不稳定的问题，因此基于时间标签的长语音切分方式会造成切分不准确的问题，例如切分后得到的语音段存在截断，从而进一步导致得到的远场语音数据不符合训练要求。
技术实现思路
有鉴于此，本专利技术提供了一种语音切分的方法、装置、设备和计算机存储介质，以便于提高对录制语音的切分准确性。具体技术方案如下：本专利技术提供了一种语音切分的方法，该方法包括：确定第一语音与第二语音的互相关度...

【技术保护点】
1.一种语音切分的方法，其特征在于，该方法包括：确定第一语音与第二语音的互相关度，其中所述第二语音为对所述第一语音进行录制后得到的语音，所述第一语音由两个以上的第一语音段拼接而成；基于所述互相关度对时间标签进行校准，所述时间标签包含各第一语音段在第一语音中的开始时间和结束时间；利用校准后的时间标签，对所述第二语音进行切分，得到两个以上的第二语音段。

【技术特征摘要】
1.一种语音切分的方法，其特征在于，该方法包括：确定第一语音与第二语音的互相关度，其中所述第二语音为对所述第一语音进行录制后得到的语音，所述第一语音由两个以上的第一语音段拼接而成；基于所述互相关度对时间标签进行校准，所述时间标签包含各第一语音段在第一语音中的开始时间和结束时间；利用校准后的时间标签，对所述第二语音进行切分，得到两个以上的第二语音段。2.根据权利要求1所述的方法，其特征在于，该方法还包括：对两个以上的第一语音段进行排序后，拼接成所述第一语音；对各第一语音段在第一语音中的开始时间和结束时间进行标记，生成所述时间标签；对所述第一语音进行录制，得到所述第二语音。3.根据权利要求2所述的方法，其特征在于，该方法还包括：切除录制得到的所述第二语音中开始位置的静音段。4.根据权利要求3所述的方法，其特征在于，切除所述第二语音中开始位置的静音段包括：利用语音活动检测VAD模型对所述第二语音进行语音端点检测，将首个语音端点之前的各静音帧切除。5.根据权利要求1所述的方法，其特征在于，所述确定第一语音与第二语音的互相关度包括：从所述第一语音和第二语音中截取对应相同第一时段的语音；将从第一语音中截取的语音和从第二语音中截取的语音进行互相关度计算。6.根据权利要求1所述的方法，其特征在于，基于所述互相关度对时间标签进行校准包括：基于所述互相关度确定所述第二语音的开始时间；利用确定出的所述第二语音的开始时间对时间标签进行校准。7.根据权利要求6所述的方法，其特征在于，基于所述互相关度确定所述第二语音的开始时间包括：利用所述互相关度中最大值对应的时间位置，以及参与该相关度计算的第二语音的长度，确定所述第二语音的开始时间。8.根据权利要求6所述的方法，其特征在于，利用确定出的所述第二语音的开始位置对时间标签进行校准包括：利用时间标签中各时间与确定出的所述第二语音的开始位置的差值，得到校准后时间标签中对应的各时间，所述时间标签中各时间包括各第一语音段的开始时间和结束时间。9.根据权利要求1所述的方法，其特征在于，预先...

【专利技术属性】
技术研发人员：孙建伟，
申请(专利权)人：百度在线网络技术北京有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人