语音数据处理方法、装置、计算机设备及存储介质制造方法及图纸

技术编号：35291101 阅读：17 留言：0更新日期：2022-10-22 12:37

本申请公开了一种语音数据处理方法、装置、计算机设备及存储介质，应用于数据处理技术领域，该方法包括：获取待处理语音数据进行语音识别，得到待处理语音数据对应的音素标签数据；将音素标签数据与待处理语音数据进行对齐，得到音素对齐结果；根据音素对齐结果，确定音素标签数据中相邻音素标签组之间间隔的第一停顿时间；根据第一停顿时间，对音素标签数据进行标注，得到目标音素标签数据；将目标音素标签数据作为训练数据对语音生成模型进行训练，以此，通过自动化对音素标签数据之间进行停顿时间的生成、标注和训练，极大的提高了语音数据的标注的效率。语音数据的标注的效率。语音数据的标注的效率。

全部详细技术资料下载

【技术实现步骤摘要】
语音数据处理方法、装置、计算机设备及存储介质

[0001]本申请涉及数据处理
，尤其涉及一种语音数据处理方法、装置、计算机设备及存储介质。

技术介绍

[0002]语音合成技术是把文本转化为声音的关键技术之一，其可以使电脑、机器人等电子设备具有类似于人一样的说话能力，是当今时代信息产业的重要竞争市场。现在人们采用深度学习等算法构建语音合成系统，并采用大量的语音训练数据对语音合成系统进行训练，从而得到可以投入应用的语音合成系统。
[0003]目前，通常是采用专业的录音设备进行语音数据录制后，得到语音数据，并对语音数据进行人工标注获得语音训练数据，但由于受标注人员的主观影响，在对语音数据进行标注时，导致标注标准难以达到统一，错误率高且效率低，从而影响整个语音合成系统的性能。

技术实现思路

[0004]本申请提供一种语音数据处理方法、装置、计算机设备及存储介质，提高语音数据的标注效率。
[0005]一种语音数据处理方法，包括：
[0006]获取待处理语音数据进行语音识别，得到所述待处理语音数据对应的音素标签数据；
[0007]将所述音素标签数据与所述待处理语音数据进行对齐，得到音素对齐结果；
[0008]根据所述音素对齐结果，确定所述音素标签数据中相邻音素标签组之间间隔的第一停顿时间；
[0009]根据所述第一停顿时间，对所述音素标签数据进行标注，得到目标音素标签数据；
[0010]将所述目标音素标签数据作为训练数据对语音生成模型进行训练。
>[0011]一种语音语音数据处理装置，包括：
[0012]语音识别模块，用于获取待处理语音数据进行语音识别，得到所述待处理语音数据对应的音素标签数据；
[0013]对齐模块，用于将所述音素标签数据与所述待处理语音数据进行对齐，得到音素对齐结果；
[0014]第一停顿时间确定模块，用于根据所述音素对齐结果，确定所述音素标签数据中相邻音素标签组之间间隔的第一停顿时间；
[0015]标注模块，用于根据所述第一停顿时间，对所述音素标签数据进行标注，得到目标音素标签数据；
[0016]训练模块，用于将所述目标音素标签数据作为训练数据对语音生成模型进行训练。
[0017]一种计算机设备，包括存储器、处理器以及存储在所述存储器中并在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述语音数据处理方法的步骤。
[0018]一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述语音数据处理方法的步骤。
[0019]本申请提供的语音数据处理方法、装置、计算机设备及存储介质，获取待处理语音数据进行语音识别，得到待处理语音数据对应的音素标签数据；将音素标签数据与待处理语音数据进行对齐，得到音素对齐结果；根据音素对齐结果，确定音素标签数据中相邻音素标签组之间间隔的第一停顿时间；根据第一停顿时间，对音素标签数据进行标注，得到目标音素标签数据；将目标音素标签数据作为训练数据对语音生成模型进行训练，在本申请中，通过将对待处理语音数据进行语音识别得到的音素标签数据和待处理语音数据进行对齐，可以准确确定音素标签数据中相邻音素标签组之间间隔的第一停顿时间的时间长度，以便于快速对音素标签数据进行标注，从而提高语音数据的标注准确度及标注效率。
附图说明
[0020]为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
[0021]图1是本申请一实施例中语音数据处理方法的一应用环境示意图；
[0022]图2是本申请一实施例中语音数据处理方法的一流程图；
[0023]图3是本申请又一实施例中语音数据处理装置的结构示意图；
[0024]图4是本申请又一实施例中语音数据处理装置的结构示意图；
[0025]图5是本申请又一实施例中语音数据处理装置的结构示意图；
[0026]图6是本申请一实施例中语音数据处理装置的结构示意图；
[0027]图7是本申请一实施例中计算机设备的一示意图。
具体实施方式
[0028]下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。
[0029]本申请实施例提供的语音数据处理方法，可应用在如图1的应用环境中，其中，计算机设备和终端设备通过网络与服务器进行通信。其中，计算机设备和终端设备可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
[0030]系统框架100可以包括终端设备、网络和服务器。网络104用以在终端设备和服务器之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。
[0031]用户可以使用终端设备通过网络与服务器交互，以接收或者发送消息等。
[0032]终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture Eperts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Eperts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。
[0033]服务器105可以是提供各种服务的服务器，例如对终端设备101、102、103上显示的页面提供支持的后台服务器。
[0034]需要说明的是，本申请实施例所提供的语音数据处理方法由服务器执行，相应地，语音数据处理装置设置于服务器中。
[0035]应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的，根据实现需要，可以具有任意数目的终端设备、网络和服务器，本申请实施例中的终端设备具体可以对应的是实际生产中的应用系统。
[0036]在一实施例中，如图2所示，提供一种语音数据处理方法，以该方法应用在图1中的服务器为例进行说明，包括如下步骤S201至步骤S205：
[0037]步骤S201：获取待处理语音数据进行语音识别，得到待处理语音数据对应的音素标签数据。
[0038]其中，待处理语音数据可以是至少一个音频信号构成的语音数据，音频信号是表示机械波的信号，是机械波的波长、强度变化的信息载体，其可以是模拟信号也可以是数字信号。音素标签数据可以是由音素标签组成本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种语音数据处理方法，其特征在于，包括：获取待处理语音数据进行语音识别，得到所述待处理语音数据对应的音素标签数据；将所述音素标签数据与所述待处理语音数据进行对齐，得到音素对齐结果；根据所述音素对齐结果，确定所述音素标签数据中相邻音素标签组之间间隔的第一停顿时间；根据所述第一停顿时间，对所述音素标签数据进行标注，得到目标音素标签数据；将所述目标音素标签数据作为训练数据对语音生成模型进行训练。2.根据权利要求1所述的语音数据处理方法，其特征在于，所述获取待处理语音数据进行语音识别，得到所述待处理语音数据对应的音素标签数据，包括：按照预设的帧长度对所述待处理语音数据进行语音识别，得到每个预设的帧长度对应的音素标签序列；按照时间顺序，将每个所述预设的帧长度对应的音素标签序列进行合并，得到所述待处理语音数据对应的所述音素标签数据。3.根据权利要求1所述的语音数据处理方法，其特征在于，所述将所述音素标签数据与所述待处理语音数据进行对齐，得到音素对齐结果，包括：提取所述待处理语音数据的时序特征和频率特征；根据所述时序特征和频率特征，得到所述待处理语音数据对应的音素分布位置；根据所述音素分布位置，将所述音素标签数据与所述待处理语音数据进行音素对齐处理，得到音素对齐结果。4.根据权利要求1所述的语音数据处理方法，其特征在于，所述根据所述第一停顿时间，对所述音素标签进行标注，得到目标音素标签数据，包括：根据所述第一停顿时间，从预设标签数据库中获取对应的停顿标签；采用所述停顿标签，对所述音素标签数据的间隔位置进行标注，得到目标音素标签数据。5.根据权利要求4所述的异常语音数据检测方法，其特征在于，所述预设标签数据库包括至少两个类型的停顿标签，每个类型的停顿标签携带不同的第二停顿时间，所述根据所述第一停顿时间，从预设标签数据库中获取对应的停顿标签，包括：将所述第一停顿时间和所述第二停顿时间进匹配，得到匹配结果；根据所述匹配结果，从所述预设标签数据库中获取每个第一停顿时间对应类型的停顿标签。6.根据权利要求1至5任一项所述的语音数据处理方法，其特征在于，所述将所述目标音素标签数据作为训练数据对语音生成模型进行训练之前,所述方法还包括：对所述待处理语音数据进行语音识别，获得所述待处理语...

【专利技术属性】
技术研发人员：李亚桐，于洪伟，
申请(专利权)人：深圳市声扬科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人