一种语音数据的处理方法、装置、电子设备及存储介质制造方法及图纸

技术编号：38348327 阅读：18 留言：0更新日期：2023-08-02 09:28

本公开提供了一种语音数据的处理方法、装置、电子设备及存储介质。包括：获取待识别的目标语音数据；检测目标语音数据得到目标特征序列以及目标时间序列，目标特征序列包括目标语音数据中各个音频帧对应音素的音素描述信息，目标时间序列包括目标语音数据中各个音素对应的时间信息；基于目标特征序列中的音素描述信息以及目标时间序列中的时间信息进行线性计算，得到目标语音数据对应的目标流利度。本公开通过提取语音数据的目标特征序列以及目标时间序列，通过目标特征序列中的音素描述信息以及目标时间序列中的时间信息能够准确的表达出细粒度的声学特征，为语音数据的流利度检测提供了可靠的依据，提高了流利度检测结果的可靠性。的可靠性。的可靠性。

全部详细技术资料下载

【技术实现步骤摘要】
一种语音数据的处理方法、装置、电子设备及存储介质

[0001]本公开涉及语音处理
，尤其涉及一种语音数据的处理方法、装置、电子设备及存储介质。

技术介绍

[0002]随着计算机技术的发展，语音识别技术应用日益增加。例如：对于语音数据的合成，检测流利度等等。目前通过语言数据检测流利度的方法较为单一，无法有效检测出说话人细粒度的声学特征，导致流利度检测结果的准确性较低。

技术实现思路

[0003]为了解决上述技术问题或者至少部分地解决上述技术问题，本公开提供了一种语音数据的处理方法、装置、电子设备及存储介质。
[0004]根据本公开实施例的一个方面，提供了一种语音数据的处理方法，包括：
[0005]获取待识别的目标语音数据；
[0006]检测所述目标语音数据得到目标特征序列以及目标时间序列，其中，所述目标特征序列包括所述目标语音数据中各个音频帧对应音素的音素描述信息，所述目标时间序列包括所述目标语音数据中各个音素对应的时间信息；
[0007]基于所述目标特征序列中的音素描述信息以及所述目标时间序列中的时间信息进行线性计算，得到所述目标语音数据对应的目标流利度。
[0008]根据本公开实施例的另一方面，还提供了一种语音数据的处理装置，包括：
[0009]获取模块，用于获取待识别的目标语音数据；
[0010]检测模块，用于检测所述目标语音数据得到目标特征序列以及目标时间序列，其中，所述目标特征序列包括所述目标语音数据中各个音频帧对应音素的音素描述信...

【技术保护点】

【技术特征摘要】
1.一种语音数据的处理方法，其特征在于，包括：获取待识别的目标语音数据；检测所述目标语音数据得到目标特征序列以及目标时间序列，其中，所述目标特征序列包括所述目标语音数据中各个音频帧对应音素的音素描述信息，所述目标时间序列包括所述目标语音数据中各个音素对应的时间信息；基于所述目标特征序列中的音素描述信息以及所述目标时间序列中的时间信息进行线性计算，得到所述目标语音数据对应的目标流利度。2.根据权利要求1所述的方法，其特征在于，所述目标语音数据包括多个音频帧；所述检测所述目标语音数据得到目标特征序列以及目标时间序列，包括：检测所述目标语音数据得到各个所述音频帧对应的音素以及每个音素对应的音素描述信息；获取所述目标语音数据对应的目标文本；将所述目标文本与所述目标语音数据中的音频帧对齐，得到各个音素对应的时间信息，其中，所述时间信息包括音素时长以及音素标识；基于所述目标语音数据中音素对应的音素描述信息构建所述目标特征序列，并基于所述音素对应的音素时长以及音素标识构建所述目标时间序列。3.根据权利要求2所述的方法，其特征在于，所述基于所述目标特征序列中的音素描述信息以及所述目标时间序列中的时间信息进行线性计算，得到所述目标语音数据对应的目标流利度，包括：获取预先训练好的流利度预测模型；将所述音素描述信息，所述音素时长以及所述音素标识输入所述流利度预测模型，以使所述流利度预测模型基于所述音素描述信息，所述音素标识以及所述音素时长进行线性计算得到所述目标流利度。4.根据权利要求3所述的方法，其特征在于，所述流利度预测模型的训练方法包括：获取语音数据样本以及所述语音数据样本对应的流利度标签；检测所述语音数据样本得到特征序列以及时间序列，其中，所述特征序列包括所述语音数据样本中各个音频帧对应音素的音素描述信息，所述目标时间序列包括所述语音数据样本中各个音素对应的时间信息；利用所述特征序列中音素描述信息，所述时间序列中的时间信息以及所述流利度标签训练预设神经网络，得到预测流利度；基于所述预测流利度与所述流利度标签，调整所述预设神经网络的模型参数。5.根据权利要求4所述的方法，其特征在于，所述利用所述特征序列中音素描述信息，所述时间序列中的时间信息以及所述流利度标签训练预设神经网络，得到预测流利度，包括：确定所述特征序列中待进行掩码的目标音素描述信息，并从所述时间序列中获取所述目标音素描述信息对应的目标时间信息；分别对所述特征序列中的目标音素描述信息以及所述时间序列中的目标时间信息进行掩码，得到掩码特征序列以...

【专利技术属性】
技术研发人员：付凯奇，田霄海，李伟，马泽君，
申请(专利权)人：脸萌有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人