【技术实现步骤摘要】
音色特征提取模型的训练和音频合成的方法及装置
[0001]本申请涉及计算机
,特别涉及一种音色特征提取模型的训练和音频合成的方法及装置。
技术介绍
[0002]近几年,人工智能被应用在TTS(text to speech,语音合成)技术中,TTS技术是根据输入文本,生成出对应的语音音频,在语音助手、聊天机器人、有声书、虚拟人等场景有广泛的应用。在TTS技术中,一般需要合成特定音色的音频。因此,音色特征提取模型是必要的。
[0003]一般地,在对音色特征提取模型进行训练之前,需要录制不同人物的样本音频。在录制音频时,每个人物会被分配一个ID(identity document,身份标识号码)。音色特征提取模型训练过程如下:首先,获取ID,将ID输入到待训练的音色特征提取模型中得到音色特征,同时获取目标文本的文本发音特征;然后,将提取出的音色特征与文本发音特征输入到待训练的音频合成模型中得到预测音频;最后,以最小化预测音频的与该ID对应的样本音频(样本音频是使用该ID对应的音色朗读目标文本得到的音频)的差异为训练目 ...
【技术保护点】
【技术特征摘要】
1.一种音色特征提取模型的训练方法,其特征在于,所述方法包括:获取第一人物的第一样本音频、所述第一人物的第二样本音频和第二人物的第三样本音频;根据待训练的音色特征提取模型对所述第一样本音频提取第一音色特征,根据所述待训练的音色特征提取模型对所述第二样本音频提取第二音色特征,根据所述待训练的音色特征提取模型对所述第三样本音频提取第三音色特征;以最小化所述第一音色特征与所述第二音色特征的差异、且最大化所述第一音色特征与所述第三音色特征的差异为训练目的,对所述待训练的音色特征提取模型进行训练;若满足训练结束条件,则将满足训练结束条件的音色特征提取模型确定为目标音色特征提取模型。2.根据权利要求1所述的方法,其特征在于,所述以最小化所述第一音色特征与所述第二音色特征的差异、且最大化所述第一音色特征与所述第三音色特征的差异为训练目的,对所述待训练的音色特征提取模型进行训练,包括:以最小化所述第一音色特征与所述第二音色特征的差异、并最大化所述第一音色特征与所述第三音色特征的差异、并最大化所述第二音色特征与所述第三音色特征的差异为训练目的,对所述待训练的音色特征提取模型进行训练。3.根据权利要求2所述的方法,其特征在于,所述第一音色特征为第一音色特征向量,第二音色特征为第二音色特征向量,第三音色特征为第三音色特征向量;所述以最小化所述第一音色特征与所述第二音色特征的差异、并最大化所述第一音色特征与所述第三音色特征的差异、并最大化所述第二音色特征与所述第三音色特征的差异为训练目的,对所述待训练的音色特征提取模型进行训练,包括:确定所述第一音色特征向量与所述第二音色特征向量之间的第一向量角,确定所述第一音色特征向量与所述第三音色特征向量之间的第二向量角,确定所述第二音色特征向量与所述第三音色特征向量之间的第三向量角;根据所述第一向量角、所述第二向量角和所述第三向量角,确定第一损失值,其中,所述第一损失值与所述第一向量角正相关、与所述第二向量角负相关并与所述第三向量角负相关;根据所述第一损失值对所述待训练的音色特征提取模型进行训练。4.根据权利要求3所述的方法,其特征在于,所述根据所述第一向量角、所述第二向量角和所述第三向量角,确定第一损失值,包括:确定所述第一向量角的第一余弦值、所述第二向量角的第二余弦值、第三向量角的第三余弦值;根据所述第一余弦值、所述第二余弦值和所述第三余弦值,确定第一损失值,其中,所述第一损失值与所述第一余弦值负相关、与所述第二余弦值正相关并与所述第三余弦值正相关。5.根据权利要求4所述的方法,其特征在于,所述根据所述第一余弦值、所述第二余弦值和所述第三余弦值,确定第一损失值,包括:根据所述第一余弦值和所述第二余弦值,确定第一子损失值;根据所述第二余弦值,确定第二子损失值;根据所述第三余弦值,确定第三子损失值;根据所述第一余弦值,确定第
四子损失值;其中,所述第一子损失值与所述第一余弦值负相关并与所述第二余弦值正相关,所述第子二损失值与所述第二余弦值正相关,所述第三子损失值与所述第三余弦值正相关,所述第四子损失值与所述第一余弦值负相关;根据所述第一子损失值、所述第二子损失值、所述第三子损失值和所述第四子损失值,确定第一损失值。6.根据权利要求5所述的方法,其特征在于,所述根据所述第一余弦值和所述第二余弦值,确定第一子损失值;根据所述第二余弦值,确定第二子损失值;根据所述第三余弦值,确定第三子损失值;根据所述第一余弦值,确定第四子损失值,包括:根据公式确定第一子损失值L1;根据公式L2=cos(y
a
,y
n
),确定第二子损失值L2;根据公式L3=cos(y
p
,y
n
),确定第三子损失值L3;根据公式L4=
‑
cos(y
a
,y
p
),确定第四子损失值L4;其中,y
a
为第一音色特征向量,y
p
为第二音色特征向量,y...
【专利技术属性】
技术研发人员:谭志力,
申请(专利权)人:腾讯音乐娱乐科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。