模型训练方法和装置、音素分割方法、设备及存储介质制造方法及图纸

技术编号：38244793 阅读：14 留言：0更新日期：2023-07-25 18:06

本申请实施例提供了一种模型训练方法和装置、音素分割方法、设备及存储介质，属于人工智能技术领域。该方法包括：获取并将语音样本序列输入至预设的音素分割模型；通过编码器对语音样本序列进行隐变量转换得到原始语音特征序列；通过解码器对原始语音特征序列进行掩码处理得到音素参考数据；通过音素量化网络根据预设的音素码本对原始语音特征序列进行量化得到目标音素特征序列；通过最近邻聚类网络对目标音素特征序列进行音素边界分割得到音素分割数据；通过预设的损失模型对音素参考数据和音素分割数据进行损失计算得到分割损失值；根据分割损失值对音素分割模型进行参数调整。本申请实施例能够构建音素分割更加准确的音素分割模型。音素分割模型。音素分割模型。

全部详细技术资料下载

【技术实现步骤摘要】
模型训练方法和装置、音素分割方法、设备及存储介质

[0001]本申请涉及人工智能
，尤其涉及一种模型训练方法和装置、音素分割方法、设备及存储介质。

技术介绍

[0002]音素分割时语音或者音频产品应用的先导任务，主要目标是对输入的语音音频在时序上自动划分音素边界。相关技术中，音素分割模型主要通过大量标注数据进行训练，且标注数据包括每个音素的起止时间点及音素标签，因此需要耗费大量人力进行标注，且标注人员具备语音领域的专业知识，从而增加了音素分割模型训练的难度。

技术实现思路

[0003]本申请实施例的主要目的在于提出一种模型训练方法和装置、音素分割方法、设备及存储介质，旨在构建音素分割准确性更高的音素分割模型。
[0004]为实现上述目的，本申请实施例的第一方面提出了一种模型训练方法，所述方法包括：
[0005]获取语音样本序列；
[0006]将所述语音样本序列输入至预设的音素分割模型；其中，所述音素分割模型包括：编码器、解码器、音素量化网络和最近邻聚类网络；
[0007]通过所述编码器对所述语音样本序列进行隐变量转换，得到原始语音特征序列；
[0008]通过所述解码器对所述原始语音特征序列进行掩码处理，得到音素参考数据；
[0009]通过所述音素量化网络根据预设的音素码本对所述原始语音特征序列进行量化处理，得到目标音素特征序列；
[0010]通过所述最近邻聚类网络对所述目标音素特征序列进行音素边界分割，得到音素分割数据；
[0011...

【技术保护点】

【技术特征摘要】
1.一种模型训练方法，其特征在于，所述方法包括：获取语音样本序列；将所述语音样本序列输入至预设的音素分割模型；其中，所述音素分割模型包括：编码器、解码器、音素量化网络和最近邻聚类网络；通过所述编码器对所述语音样本序列进行隐变量转换，得到原始语音特征序列；通过所述解码器对所述原始语音特征序列进行掩码处理，得到音素参考数据；通过所述音素量化网络根据预设的音素码本对所述原始语音特征序列进行量化处理，得到目标音素特征序列；通过所述最近邻聚类网络对所述目标音素特征序列进行音素边界分割，得到音素分割数据；通过预设的损失模型对所述音素参考数据和所述音素分割数据进行损失计算，得到分割损失值；根据所述分割损失值对所述音素分割模型进行参数调整。2.根据权利要求1所述的方法，其特征在于，所述通过所述音素量化网络根据预设的音素码本对所述原始语音特征序列进行量化处理，得到目标音素特征序列，包括：通过所述音素量化网络获取所述原始语音特征序列的特征向量，得到语音特征向量；通过所述音素量化网络获取所述音素码本的条目向量，得到音素条目向量；通过所述音素量化网络对所述语音特征向量和所述音素条目向量进行距离计算，得到目标距离；通过所述音素量化网络根据所述目标距离对所述音素条目向量进行筛选处理，得到所述目标音素特征序列。3.根据权利要求1所述的方法，其特征在于，所述通过所述最近邻聚类网络对所述目标音素特征序列进行音素边界分割，得到音素分割数据，包括：通过所述最近邻聚类网络对所述目标音素特征序列进行异常检测，得到原始异常值；通过所述最近邻聚类网络对所述原始异常值进行峰值筛选处理，得到目标异常值；根据所述目标异常值生成所述音素分割数据。4.根据权利要求3所述的方法，其特征在于，所述目标音素特征序列包括至少两个音素特征子序列；所述通过所述最近邻聚类网络对所述目标音素特征序列进行异常检测，得到原始异常值，包括：通过所述最近邻聚类网络获取所述目标音素特征序列中任意一个音素特征子序列，得到目标特征子序列；通过所述最近邻聚类网络对所述目标特征子序列和所述音素特征子序列进行最小距离计算，得到所述原始异常值。5.根据权利要求3所述的方法，其特征在于，所述通过所述最近邻聚类网络对所述原始异常值进行峰值筛选处理，得到目标异常值，包括：通过所述最近邻聚类网络根据预设阈值对所述原始异常值进行筛选处理，得到候选异常值；通过所述最近邻聚类网络获取任意一个所述候选异常值，得到选定异常...

【专利技术属性】
技术研发人员：瞿晓阳，王健宗，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人