【技术实现步骤摘要】
语音合成方法、计算机设备及计算机可读存储介质
[0001]本申请涉及计算机
,尤其涉及语音合成方法、计算机设备及计算机可读存储介质。
技术介绍
[0002]语音合成技术,又称文语转换(Text to Speech)技术,能将任意文字信息转化为标准流畅的语音。如今,语音合成技术广泛应用于智能音箱、地图导航以及语音助理等多个领域。随着深度学习技术的发展,端到端的语音合成系统取得了显著的进步。但目前合成语音的语调特征通常较为固定,不能展现出情感信息。
技术实现思路
[0003]本申请实施例提供语音合成方法、计算机设备及计算机可读存储介质,可以利用文本合成能够展现设定情感和设定情感强度的语音,丰富了合成语音的情感信息。
[0004]一方面,本申请提供了一种语音合成方法,该方法包括:
[0005]获取待处理信息,所述待处理信息包括待合成文本、设定情感类别和设定情感强度;
[0006]获取与所述设定情感类别相匹配的第一情感基向量,并根据所述设定情感强度和所述第一情感基向量确定目标情感向量;
[0007]根据所述目标情感向量生成第一情感向量序列,所述第一情感向量序列的长度与所述待合成文本的音素序列的长度相匹配;
[0008]根据所述待合成文本和所述第一情感向量序列进行语音合成处理,得到第一合成语音;所述第一合成语音所展现的情感类别与所述设定情感类别相匹配,所述第一合成语音所展现的情感强度与所述设定情感强度相匹配。
[0009]一方面,本申请提供了一种语音合成装置 ...
【技术保护点】
【技术特征摘要】
1.一种语音合成方法,其特征在于,所述方法包括:获取待处理信息,所述待处理信息包括待合成文本、设定情感类别和设定情感强度;获取与所述设定情感类别相匹配的第一情感基向量,并根据所述设定情感强度和所述第一情感基向量确定目标情感向量;根据所述目标情感向量生成第一情感向量序列,所述第一情感向量序列的长度与所述待合成文本的音素序列的长度相匹配;根据所述待合成文本和所述第一情感向量序列进行语音合成处理,得到第一合成语音;所述第一合成语音所展现的情感类别与所述设定情感类别相匹配,所述第一合成语音所展现的情感强度与所述设定情感强度相匹配。2.根据权利要求1所述的方法,其特征在于,所述根据所述待合成文本和所述第一情感向量序列进行语音合成处理,得到第一合成语音,包括:将所述待合成文本和所述第一情感向量序列输入目标声学合成模型中进行语音合成处理,得到第一合成语音;其中,所述目标声学合成模型由样本语音对应的第二情感向量序列及所述样本语音对应的训练文本训练得到,且所述第二情感向量序列由情感信息提取模型对所述样本语音进行处理得到的。3.根据权利要求2所述的方法,其特征在于,所述情感信息提取模型包括频谱提取网络、情感特征提取网络和情感表征网络,所述方法还包括:将所述样本语音输入所述频谱提取网络中进行处理,得到所述样本语音的梅尔谱,并将所述梅尔谱输入所述情感特征提取网络中进行处理,得到所述样本语音的参考情感特征;将所述参考情感特征输入所述情感表征网络中进行处理,由所述情感表征网络从多个初始情感基向量中确定与所述参考情感特征相匹配的第二情感基向量,并根据所述第二情感基向量生成第二情感向量序列;其中,所述第二情感向量序列的长度与所述训练文本的音素序列的长度相匹配,每一个所述初始情感基向量对应一种情感类别;将所述训练文本和所述第二情感向量序列输入所述初始声学合成模型中进行语音合成处理,得到第二合成语音;根据所述样本语音和所述第二合成语音确定第一损失参数,并根据所述第一损失参数对所述初始声学合成模型进行模型参数调整,得到所述目标声学合成模型。4.根据权利要求3所述的方法,所述将所述参考情感特征输入所述情感表征网络中进行处理,由所述情感表征网络从多个初始情感基向量中确定与所述参考情感特征相匹配的第二情感基向量,包括:将所述参考情感特征输入所述情感表征网络中进行处理,由所述情感表征网络确定所述参考情感特征与每一个所述初始情感基向量之间的相似度;由所述情感表征网络根据所述相似度从所述多个初始情感基向量中确定与所述参考情感特征相匹配的第二情感基向量。5.根据权利要求4所述的方法,其特征在于,所述方法还包括:根据所述样本语音对应的样本情感类别以及所述参考情感特征与每一个所述初始情感基向量之间的相似度,确定第二损失参数;根据所述第二损失参数对所述多个初始情感基向量进...
【专利技术属性】
技术研发人员:陈屹婷,杜嘉晨,徐东,赵伟峰,
申请(专利权)人:腾讯音乐娱乐科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。