语音数据处理方法、装置、存储介质和计算设备制造方法及图纸

技术编号:24173599 阅读:15 留言:0更新日期:2020-05-16 03:48
本申请的实施方式提供了一种语音数据处理方法、装置、存储介质和计算设备,所述方法包括:获取多个待处理的语音文件;对所述多个待处理的语音文件进行拼接处理,得到拼接的语音文件,以使用播放设备播放所述拼接的语音文件;对播放设备播放的所述拼接的语音文件进行录制,得到录制的语音文件;对所述录制的语音文件进行切割处理,得到多个目标语音文件;将所述多个目标语音文件添加至用于对语音识别模型进行训练的训练数据的集合中。利用本申请实施例能够以较低的成本获得高质量的训练数据。

Speech data processing methods, devices, storage media and computing equipment

【技术实现步骤摘要】
语音数据处理方法、装置、存储介质和计算设备
本申请的实施方式涉及信息
,更具体地,本申请的实施方式涉及语音数据处理方法、装置、存储介质和计算设备。
技术介绍
本部分旨在为权利要求书中陈述的本申请的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。语音识别技术也称自动语音识别(AutomaticSpeechRecognition,ASR)技术是以语音为处理对象,通过语音信号处理等将语音自动转换为计算机可读内容的过程。实际应用中,语音识别技术需依托于大量的人工标注数据,对系统进行大量的训练,才可能获得较高的识别率。目前在纯净无噪声的环境下,语音识别技术取得了较高的识别率,但是,在含有噪声、混响的环境中或者其他语音失真的环境中,系统识别率急剧下降,语音识别的鲁棒性差,如法满足日益多样化的用户使用需求。
技术实现思路
本申请期望提供一种语音数据处理方法、装置、存储介质和计算设备,以解决上述至少一方面的技术问题。第一方面,本申请实施例提供一种语音数据处理方法,包括:获取多个待处理的语音文件;对所述多个待处理的语音文件进行拼接处理,得到拼接的语音文件,以使用播放设备播放所述拼接的语音文件;对播放设备播放的所述拼接的语音文件进行录制,得到录制的语音文件;对所述录制的语音文件进行切割处理,得到多个目标语音文件;将所述多个目标语音文件添加至用于对语音识别模型进行训练的训练数据的集合中。根据本申请实施例的语音数据处理方法,所述多个待处理的语音文件均具有对应的标注数据。根据本申请实施例的语音数据处理方法,所述方法还包括:基于所述多个待处理的语音文件对应的标注数据以及所述多个目标语音文件,形成语音识别模型的训练数据。根据本申请实施例的语音数据处理方法,所述对所述多个语音文件进行拼接处理,包括:在相邻的两个语音文件之间添加至少一个第一类标识,以使拼接的语音文件包括多个第一类标识,所述第一类标识用于对前一个语音文件的结束位置进行标记,所述第一类标识还用于对后一个语音文件的开始位置进行标记。根据本申请实施例的语音数据处理方法,所述录制的语音文件中包括多个所述第一类标识;所述对所述录制的语音文件进行切割处理,包括:基于所述录制的语音文件中的各个第一类标识,对所述录制的语音文件进行切割处理,以使切割后的目标语音文件的开始位置与所述拼接的语音文件中对应的语音文件的开始位置之间的距离小于预定阈值,并且使切割后的目标语音文件的结束位置与所述拼接的语音文件中对应的语音文件的结束位置之间的距离小于预定阈值。根据本申请实施例的语音数据处理方法,所述对所述多个语音文件进行拼接处理,包括:在拼接处理的多个语音文件的累计时长达到预设时长时,添加至少一个第二类标识,并继续进行拼接处理,在拼接处理的多个语音文件的累计时长再次达到预设时长时,再次添加至少一个第二类标识,并继续进行拼接处理,如此直至拼接完成;其中,所述第二类标识用于对前一个语音文件的结束位置进行标记,所述第二类标识还用于对后一个语音文件的开始位置进行标记。根据本申请实施例的语音数据处理方法,所述录制的语音文件中包括多个所述第二类标识;所述对所述录制的语音文件进行切割处理,包括:在对所述录制的语音文件进行切割处理的过程中,基于各个第二类标识对切割的位置进行校准,以使切割的位置与所述拼接的语音文件中多个第二类标识的位置之间的偏移量小于预定阈值。根据本申请实施例的语音数据处理方法,所述第一类标识包括持续时长为第一时长的纯音信号。根据本申请实施例的语音数据处理方法,所述第二类标识包括持续时长为第二时长的纯音信号。第二方面,本申请实施例提供一种语音识别模型,所述语音识别模型是基于训练数据训练生成的,其中,所述训练数据包括基于以上所述的语音数据处理方法获得的训练数据。第三方面,本申请实施例提供一种语音数据处理方法装置,所述装置包括:语音文件获取模块,用于获取多个待处理的语音文件,拼接处理模块,用于对所述多个待处理的语音文件进行拼接处理,得到拼接的语音文件,以使用播放设备播放所述拼接的语音文件;录制模块,用于对播放设备播放的所述拼接的语音文件进行录制,得到录制的语音文件;切割处理模块,用于对所述录制的语音文件进行切割处理,得到多个目标语音文件;添加处理模块,用于将所述多个目标语音文件添加至用于对语音识别模型进行训练的训练数据的集合中。根据本申请实施例的语音数据处理方法装置,所述多个待处理的语音文件均具有对应的标注数据。根据本申请实施例的语音数据处理方法装置,所述装置还包括:训练数据处理模块,用于基于所述多个待处理的语音文件对应的标注数据以及所述多个目标语音文件,形成语音识别模型的训练数据。根据本申请实施例的语音数据处理方法装置,所述拼接处理模块包括:第一标识处理子模块,用于在相邻的两个语音文件之间添加至少一个第一类标识,以使拼接的语音文件包括多个第一类标识;其中,所述第一类标识用于对前一个语音文件的结束位置进行标记,所述第一类标识还用于对后一个语音文件的开始位置进行标记。根据本申请实施例的语音数据处理方法装置,所述录制的语音文件中包括多个所述第一类标识;所述切割处理模块基于所述录制的语音文件中的各个第一类标识,对所述录制的语音文件进行切割处理,以使切割后的目标语音文件的开始位置与所述拼接的语音文件中对应的语音文件的开始位置之间的距离小于预定阈值,并且使切割后的目标语音文件的结束位置与所述拼接的语音文件中对应的语音文件的结束位置之间的距离小于预定阈值。根据本申请实施例的语音数据处理方法装置,所述拼接处理模块包括:第二标识处理子模块,用于在拼接处理的多个语音文件的累计时长达到预设时长时,添加至少一个第二类标识,并继续进行拼接处理,在拼接处理的多个语音文件的累计时长再次达到预设时长时,再次添加至少一个第二类标识,并继续进行拼接处理,如此直至拼接完成;其中,所述第二类标识用于对前一个语音文件的结束位置进行标记,所述第二类标识还用于对后一个语音文件的开始位置进行标记。根据本申请实施例的语音数据处理方法装置,所述录制的语音文件中包括多个所述第二类标识;所述切割处理模块在对所述录制的语音文件进行切割处理的过程中,基于各个第二类标识对切割的位置进行校准,以使切割的位置与所述拼接的语音文件中多个第二类标识的位置之间的偏移量小于预定阈值。根据本申请实施例的语音数据处理方法装置,所述第一类标识包括持续时长为第一时长的纯音信号。根据本申请实施例的语音数据处理方法装置,所述第二类标识包括持续时长为第二时长的纯音信号。第四方面,本申请实施例还提供一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行实现上述的语音数据处理方法的步骤。第五方面,本申请实施例还提供一种计算设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述的语音数据处本文档来自技高网...

【技术保护点】
1.一种语音数据处理方法,其特征在于,所述方法包括:/n获取多个待处理的语音文件;/n对所述多个待处理的语音文件进行拼接处理,得到拼接的语音文件,以使用播放设备播放所述拼接的语音文件;/n对播放设备播放的所述拼接的语音文件进行录制,得到录制的语音文件;/n对所述录制的语音文件进行切割处理,得到多个目标语音文件;/n将所述多个目标语音文件添加至用于对语音识别模型进行训练的训练数据的集合中。/n

【技术特征摘要】
1.一种语音数据处理方法,其特征在于,所述方法包括:
获取多个待处理的语音文件;
对所述多个待处理的语音文件进行拼接处理,得到拼接的语音文件,以使用播放设备播放所述拼接的语音文件;
对播放设备播放的所述拼接的语音文件进行录制,得到录制的语音文件;
对所述录制的语音文件进行切割处理,得到多个目标语音文件;
将所述多个目标语音文件添加至用于对语音识别模型进行训练的训练数据的集合中。


2.根据权利要求1所述的方法,其特征在于,所述多个待处理的语音文件均具有对应的标注数据。


3.根据权利要求1所述的方法,其特征在于,所述对所述多个语音文件进行拼接处理,包括:
在相邻的两个语音文件之间添加至少一个第一类标识,以使拼接的语音文件包括多个第一类标识,所述第一类标识用于对前一个语音文件的结束位置进行标记,所述第一类标识还用于对后一个语音文件的开始位置进行标记。


4.根据权利要求3所述的方法,其特征在于,所述录制的语音文件中包括多个所述第一类标识;
所述对所述录制的语音文件进行切割处理,包括:
基于所述录制的语音文件中的各个第一类标识,对所述录制的语音文件进行切割处理,以使切割后的目标语音文件的开始位置与所述拼接的语音文件中对应的语音文件的开始位置之间的距离小于预定阈值,并且使切割后的目标语音文件的结束位置与所述拼接的语音文件中对应的语音文件的结束位置之间的距离小于预定阈值。


5.根据权利要求1-4中任一项所述的方法,其特征在于,所述对所述多个语音文件进行拼接处理,包括:
在拼接处理的多个语音文件的累计时长达到预设时长时,添加至少一个第二类标识,并继续进行拼接处理,在拼接处理的多个语音文件的累计时长再次达到预设时长时,再次添加至少一个第二类标识,并继续进行拼接处...

【专利技术属性】
技术研发人员:郭燕芳邱硕孙艳庆段亦涛李英杰
申请(专利权)人:网易有道信息技术北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1