音素对齐模型训练方法、计算机设备及计算机存储介质技术

技术编号：37132764 阅读：37 留言：0更新日期：2023-04-06 21:31

本申请实施例公开了一种音素对齐模型训练方法、计算机设备及计算机存储介质，声学特征参数输入至第一卷积结构获得第一卷积特征，根据每个音素的音素序列生成音素序列向量，将原始音频的每相邻3个音素的音素序列向量输入至第二卷积结构获得第二卷积特征，第一卷积特征与第二卷积特征的内积计算结果进行SoftMax计算得到权重向量，根据权重向量对原始音频每相邻3个音素的音素序列向量加权得到音素向量，将音素向量与位置序列相加得到的条件向量输入至初始声学模型，以使得初始声学模型根据条件向量进行训练得到目标声学模型。降低了由人工标注音素位置和时长的精度要求，使得音素能够更加准确地对应于音频的时长，从而提升歌声合成模型的训练效果。声合成模型的训练效果。声合成模型的训练效果。

全部详细技术资料下载

【技术实现步骤摘要】
音素对齐模型训练方法、计算机设备及计算机存储介质

[0001]本申请实施例涉及语音合成领域，具体涉及一种音素对齐模型训练方法、计算机设备及计算机存储介质。

技术介绍

[0002]近几年来，语音合成技术得到了长足发展，合成的语音在音质和自然度上趋于真实人发音的水平。相比于语音合成技术，歌声合成技术的进展却比较缓慢。歌声合成技术有很多应用场景，例如改编歌曲、和声生成和虚拟歌手等等。现有方案主要是通过训练歌声合成模型并使用此歌声合成模型输出合成的歌声。歌声合成模型的训练过程中需要根据音频训练样本的音素进行训练，而对于一个歌声合成模型而言，音素的时长和位置至关重要。
[0003]现有方案仅通过人工标注出音频训练样本的音素所对应的时长和位置，但是人工标注是基于人的主观意识而作出的，有可能存在标注错误的情况，因而导致人工标注结果不准确，进而影响歌声合成模型的训练效果。

技术实现思路

[0004]本申请实施例提供了一种音素对齐模型训练方法、计算机设备及计算机存储介质，用于准确对齐音频的每个音素的时长和位置。
>[0005]本申请本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种音素对齐模型训练方法，其特征在于，所述方法包括：获取原始音频的声学特征参数，以及，获取所述原始音频的每个音素的音素序列和位置序列；将所述原始音频的声学特征参数输入至音素对齐模型的第一卷积结构中，以获得所述第一卷积结构输出的第一卷积特征；根据所述原始音频的每个音素的音素序列生成每个音素的音素序列向量，将所述原始音频的每相邻3个音素的音素序列向量输入至所述音素对齐模型的第二卷积结构中，以获得所述第二卷积结构输出的第二卷积特征；将所述第一卷积特征与所述第二卷积特征进行内积计算，得到内积计算结果；对所述内积计算结果进行SoftMax计算得到权重向量，根据所述权重向量对所述原始音频的每相邻3个音素的音素序列向量进行加权，得到音素向量；将所述音素向量与所述位置序列相加得到条件向量，将所述条件向量输入至初始声学模型中，以得到所述初始声学模型输出的目标声学特征参数，当所述目标声学特征参数与所述原始音频的声学特征参数之间的关系满足收敛条件时停止训练，得到目标声学模型。2.根据权利要求1所述的方法，其特征在于，所述根据所述原始音频的每个音素的音素序列生成每个音素的音素序列向量，包括：对所述原始音频的每个音素进行词嵌入操作，得到每个音素的音素序列向量。3.根据权利要求1所述的方法，其特征在于，所述获取所述原始音频的每个音素的音素序列，包括：根据预标注信息确定所述原始音频中每个音素对应的所述原始音频的音频帧个数；生成所述原始音频的每个音素的拷贝，所述拷贝的个数为音素对应的所述原始音频的音频帧个数，音素的拷贝构成音素的音素序列。4.根据权利要求1所述的方法，其特征在于，获取所述原始音频的每个音素的位置序列，包括：根据预标注信息确定所述原始音频中每个音素对应的所述原始音频的音频帧个数；生成所述原始音频的每个音素的位置序号标识，所述位置序号标识的个数为音素对应的所述原始音频的音频帧个数，音素的位置序号标识构成所述位置序列。5.根据权利要求1所述的方法，其特征在于，所述方法还包括：对所述内积计算结果进行缩放操作，得到所述内积计算结果的缩放结果；所述对所述内积...

【专利技术属性】
技术研发人员：庄晓滨，
申请(专利权)人：腾讯音乐娱乐科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人