模型训练方法和装置、音素分割方法、设备及存储介质制造方法及图纸

技术编号:38244793 阅读:14 留言:0更新日期:2023-07-25 18:06
本申请实施例提供了一种模型训练方法和装置、音素分割方法、设备及存储介质,属于人工智能技术领域。该方法包括:获取并将语音样本序列输入至预设的音素分割模型;通过编码器对语音样本序列进行隐变量转换得到原始语音特征序列;通过解码器对原始语音特征序列进行掩码处理得到音素参考数据;通过音素量化网络根据预设的音素码本对原始语音特征序列进行量化得到目标音素特征序列;通过最近邻聚类网络对目标音素特征序列进行音素边界分割得到音素分割数据;通过预设的损失模型对音素参考数据和音素分割数据进行损失计算得到分割损失值;根据分割损失值对音素分割模型进行参数调整。本申请实施例能够构建音素分割更加准确的音素分割模型。音素分割模型。音素分割模型。

【技术实现步骤摘要】
模型训练方法和装置、音素分割方法、设备及存储介质


[0001]本申请涉及人工智能
,尤其涉及一种模型训练方法和装置、音素分割方法、设备及存储介质。

技术介绍

[0002]音素分割时语音或者音频产品应用的先导任务,主要目标是对输入的语音音频在时序上自动划分音素边界。相关技术中,音素分割模型主要通过大量标注数据进行训练,且标注数据包括每个音素的起止时间点及音素标签,因此需要耗费大量人力进行标注,且标注人员具备语音领域的专业知识,从而增加了音素分割模型训练的难度。

技术实现思路

[0003]本申请实施例的主要目的在于提出一种模型训练方法和装置、音素分割方法、设备及存储介质,旨在构建音素分割准确性更高的音素分割模型。
[0004]为实现上述目的,本申请实施例的第一方面提出了一种模型训练方法,所述方法包括:
[0005]获取语音样本序列;
[0006]将所述语音样本序列输入至预设的音素分割模型;其中,所述音素分割模型包括:编码器、解码器、音素量化网络和最近邻聚类网络;
[0007]通过所述编码器对所述语音样本序列进行隐变量转换,得到原始语音特征序列;
[0008]通过所述解码器对所述原始语音特征序列进行掩码处理,得到音素参考数据;
[0009]通过所述音素量化网络根据预设的音素码本对所述原始语音特征序列进行量化处理,得到目标音素特征序列;
[0010]通过所述最近邻聚类网络对所述目标音素特征序列进行音素边界分割,得到音素分割数据;
[0011]通过预设的损失模型对所述音素参考数据和所述音素分割数据进行损失计算,得到分割损失值;
[0012]根据所述分割损失值对所述音素分割模型进行参数调整。
[0013]在一些实施例,所述通过所述音素量化网络根据预设的音素码本对所述原始语音特征序列进行量化处理,得到目标音素特征序列,包括:
[0014]通过所述音素量化网络获取所述原始语音特征序列的特征向量,得到语音特征向量;
[0015]通过所述音素量化网络获取所述音素码本的条目向量,得到音素条目向量;
[0016]通过所述音素量化网络对所述语音特征向量和所述音素条目向量进行距离计算,得到目标距离;
[0017]通过所述音素量化网络根据所述目标距离对所述音素条目向量进行筛选处理,得到所述目标音素特征序列。
[0018]在一些实施例,所述通过所述最近邻聚类网络对所述目标音素特征序列进行音素边界分割,得到音素分割数据,包括:
[0019]通过所述最近邻聚类网络对所述目标音素特征序列进行异常检测,得到原始异常值;
[0020]通过所述最近邻聚类网络对所述原始异常值进行峰值筛选处理,得到目标异常值;
[0021]根据所述目标异常值生成所述音素分割数据。
[0022]在一些实施例,所述目标音素特征序列包括至少两个音素特征子序列;所述通过所述最近邻聚类网络对所述目标音素特征序列进行异常检测,得到原始异常值,包括:
[0023]通过所述最近邻聚类网络获取所述目标音素特征序列中任意一个音素特征子序列,得到目标特征子序列;
[0024]通过所述最近邻聚类网络对所述目标特征子序列和所述音素特征子序列进行最小距离计算,得到所述原始异常值。
[0025]在一些实施例,所述通过所述最近邻聚类网络对所述原始异常值进行峰值筛选处理,得到目标异常值,包括:
[0026]通过所述最近邻聚类网络根据预设阈值对所述原始异常值进行筛选处理,得到候选异常值;
[0027]通过所述最近邻聚类网络获取任意一个所述候选异常值,得到选定异常值;
[0028]根据所述选定异常值获取前一个所述候选异常值,得到前一异常值,根据所述选定异常值获取后一个所述候选异常值,得到后一异常值;
[0029]若所述选定异常值大于所述前一异常值、所述后一异常值,将所述选定异常值作为所述目标异常值。
[0030]在一些实施例,所述损失模型包括:上下文网络和目标损失函数;所述通过预设的损失模型对所述音素参考数据和所述音素分割数据进行损失计算,得到分割损失值,包括:
[0031]通过所述上下文网络对所述音素参考数据进行上下文特征提取,得到候选特征信息;
[0032]通过所述上下文网络对所述音素分割数据进行上下文特征提取,得到目标特征信息;
[0033]通过所述目标损失函数对所述候选特征信息进行正负样本挑选,得到参考特征信息;
[0034]通过所述目标损失函数对所述参考特征信息和所述目标特征信息进行损失计算,得到所述分割损失值。
[0035]为实现上述目的,本申请实施例的第二方面提出了一种音素分割方法,所述方法包括:
[0036]获取目标语音数据;
[0037]将所述目标语音数据输入至目标音素分割模型进行音素分割处理,得到目标音素分割信息;其中,所述目标音素分割模型由第一方面所述的模型训练方法得到。
[0038]为实现上述目的,本申请实施例的第三方面提出了一种模型训练装置,所述装置包括:
[0039]数据获取模块,用于获取语音样本序列;
[0040]输入模块,用于将所述语音样本序列输入至预设的音素分割模型;其中,所述音素分割模型包括:编码器、解码器、音素量化网络和最近邻聚类网络;
[0041]通过所述编码器对所述语音样本序列进行隐变量转换,得到原始语音特征序列;
[0042]通过所述解码器对所述原始语音特征序列进行掩码处理,得到音素参考数据;
[0043]通过所述音素量化网络根据预设的音素码本对所述原始语音特征序列进行量化处理,得到目标音素特征序列;
[0044]通过所述最近邻聚类网络对所述目标音素特征序列进行音素分割边界挑选,得到音素分割数据;
[0045]损失计算模块,用于通过预设的损失模型对所述音素参考数据和所述音素分割数据进行损失计算,得到分割损失值;
[0046]参数调整模块,用于根据所述分割损失值对所述音素分割模型进行参数调整。
[0047]为实现上述目的,本申请实施例的第四方面提出了一种电子设备,所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现第一方面所述的模型训练方法,或者第二方面所述的音素分割方法。
[0048]为实现上述目的,本申请实施例的第五方面提出了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现第一方面所述的模型训练方法,或者第二方面所述的音素分割方法。
[0049]本申请提出的模型训练方法和装置、音素分割方法、设备及存储介质,其通过设置包括音素量化网络和最近邻聚类网络的音素分割模型,且音素量化网络预设的音素码本用于将输入的原始语音特征序列表征为对应的音素,再通过最近邻聚类网络进行音素边界分割,以得到更加准确的音素分割数据,同时计算分割损失值,并根据分割本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种模型训练方法,其特征在于,所述方法包括:获取语音样本序列;将所述语音样本序列输入至预设的音素分割模型;其中,所述音素分割模型包括:编码器、解码器、音素量化网络和最近邻聚类网络;通过所述编码器对所述语音样本序列进行隐变量转换,得到原始语音特征序列;通过所述解码器对所述原始语音特征序列进行掩码处理,得到音素参考数据;通过所述音素量化网络根据预设的音素码本对所述原始语音特征序列进行量化处理,得到目标音素特征序列;通过所述最近邻聚类网络对所述目标音素特征序列进行音素边界分割,得到音素分割数据;通过预设的损失模型对所述音素参考数据和所述音素分割数据进行损失计算,得到分割损失值;根据所述分割损失值对所述音素分割模型进行参数调整。2.根据权利要求1所述的方法,其特征在于,所述通过所述音素量化网络根据预设的音素码本对所述原始语音特征序列进行量化处理,得到目标音素特征序列,包括:通过所述音素量化网络获取所述原始语音特征序列的特征向量,得到语音特征向量;通过所述音素量化网络获取所述音素码本的条目向量,得到音素条目向量;通过所述音素量化网络对所述语音特征向量和所述音素条目向量进行距离计算,得到目标距离;通过所述音素量化网络根据所述目标距离对所述音素条目向量进行筛选处理,得到所述目标音素特征序列。3.根据权利要求1所述的方法,其特征在于,所述通过所述最近邻聚类网络对所述目标音素特征序列进行音素边界分割,得到音素分割数据,包括:通过所述最近邻聚类网络对所述目标音素特征序列进行异常检测,得到原始异常值;通过所述最近邻聚类网络对所述原始异常值进行峰值筛选处理,得到目标异常值;根据所述目标异常值生成所述音素分割数据。4.根据权利要求3所述的方法,其特征在于,所述目标音素特征序列包括至少两个音素特征子序列;所述通过所述最近邻聚类网络对所述目标音素特征序列进行异常检测,得到原始异常值,包括:通过所述最近邻聚类网络获取所述目标音素特征序列中任意一个音素特征子序列,得到目标特征子序列;通过所述最近邻聚类网络对所述目标特征子序列和所述音素特征子序列进行最小距离计算,得到所述原始异常值。5.根据权利要求3所述的方法,其特征在于,所述通过所述最近邻聚类网络对所述原始异常值进行峰值筛选处理,得到目标异常值,包括:通过所述最近邻聚类网络根据预设阈值对所述原始异常值进行筛选处理,得到候选异常值;通过所述最近邻聚类网络获取任意一个所述候选异常值,得到选定异常...

【专利技术属性】
技术研发人员:瞿晓阳王健宗
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1