System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本公开涉及人工智能领域,并且更具体地涉及一种语音合成方法、语音合成装置和设备以及计算机可读存储介质。
技术介绍
1、人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
2、人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、预训练模型技术、操作/交互系统、机电一体化等技术。其中,预训练模型又称大模型、基础模型,经过微调后可以广泛应用于人工智能各大方向下游任务。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
3、在现今生活中,语音技术(speech technology)已被广泛应用。语音技术的关键技术有自动语音识别技术(automatic speech recognition,asr)、语音合成技术(text tospeech,tts)以及声纹识别技术。让计算机能听、能看、能说、能感觉,是未来人机交互的发展方向,其中语音成为未来最被看好的人机交互方式之一。歌唱语音合成(singi
4、通常,语音合成系统可以包括声学模型和声码器两个部分,其中,声学模型的目的是将文本映射为声学特征,例如梅尔谱,声码器的目的则是基于声学特征来合成语音。目前,出现了一些端到端的歌唱语音合成方法,例如visinger、visinger2等,其可以在给定输入乐谱的情况下直接生成歌声波形。然而,诸如visinger、visinger2等的现有端到端歌唱语音合成方法没有很好地考虑人类语音合成机制,对于音高信息的建模也有所欠缺,使得最终的合成歌声质量仍有很大的改善空间。
技术实现思路
1、针对以上问题,本公开提出了一种语音合成方法、语音合成装置和设备、计算机可读存储介质以及计算机程序产品。
2、根据本公开实施例的一个方面,提供了一种利用语音合成系统的语音合成方法,所述方法包括:接收输入文本;基于所述输入文本分别生成表征语音基频信息的预测基频特征和表征语音频谱包络信息的预测倒谱特征;基于所述预测基频特征生成第一激励信号,并至少基于所述第一激励信号和所述预测倒谱特征,生成用于合成语音的第一声学特征;以及基于所述预测基频特征生成第二激励信号,并基于所述第一声学特征和所述第二激励信号生成与所述输入文本对应的合成语音。
3、根据本公开实施例的示例,其中,所述第一激励信号和所述第二激励信号是由非周期性分量和基于所述预测基频特征生成的周期性分量组成的。
4、根据本公开实施例的示例,其中,基于所述第一声学特征和所述第二激励信号生成与所述输入文本对应的合成语音包括:对所述第一声学特征进行逐层上采样以生成多个上采样的第一声学特征;对所述第二激励信号进行逐层下采样以生成多个下采样的第二激励信号;将所述多个上采样的第一声学特征中的每个上采样的第一声学特征与所述多个下采样的第二激励信号中对应的下采样的第二激励信号进行拼接,并基于拼接结果生成与所述输入文本对应的所述合成语音。
5、根据本公开实施例的示例,所述语音合成方法还包括基于所述输入文本生成所述输入文本中的每个音素的预测时长特征,并且其中,至少基于所述第一激励信号和所述预测倒谱特征,生成用于合成语音的第一声学特征包括:基于所述预测时长特征、所述第一激励信号和所述预测倒谱特征,生成用于合成语音的第一声学特征。
6、根据本公开实施例的示例,其中,所述语音合成系统是通过以下方法训练的:获取多个训练语音及对应的多个训练输入文本,对于所述多个训练输入文本中的每个训练输入文本:基于所述训练输入文本分别生成训练基频特征和训练倒谱特征;基于从与所述训练输入文本对应的训练语音中提取的真实基频特征生成第一训练激励信号,并至少基于所述第一训练激励信号和所述训练倒谱特征,生成第一训练声学特征;基于所述真实基频特征和从所述训练语音中提取的真实倒谱特征生成第二训练声学特征;基于所述真实基频特征生成第二训练激励信号,并基于所述第二训练声学特征和所述第二训练激励信号生成与所述训练输入文本对应的训练合成语音;以及至少基于所述训练语音和所述训练合成语音确定损失函数,并利用所述损失函数对所述语音合成系统进行训练。
7、根据本公开实施例的示例,其中,所述损失函数包括基于所述真实基频特征、所述训练基频特征、所述真实倒谱特征和所述训练倒谱特征确定的预测损失函数。
8、根据本公开实施例的示例,其中,所述损失函数包括基于所述第一训练声学特征和所述第二训练声学特征确定的声学特征损失函数。
9、根据本公开实施例的示例,其中,所述损失函数包括重建基频损失函数和重建倒谱损失函数,所述重建基频损失函数是基于所述真实基频特征和从所述训练合成语音中提取的重建基频特征确定的,并且,所述重建倒谱损失函数是基于所述真实倒谱特征和从所述训练合成语音中提取的重建倒谱特征确定的。
10、根据本公开实施例的示例,其中,所述语音合成系统还包括判别器,并且所述损失函数还包括生成器损失函数和判别器损失函数,所述生成器损失函数包括基于所述判别器对所述训练合成语音的判别结果的对抗损失分量和基于所述判别器分别对所述训练合成语音和所述训练语音的判别结果的特征匹配损失分量,并且所述判别器损失函数包括基于所述判别器分别对所述训练合成语音和所述训练语音的判别结果的对抗损失分量。
11、根据本公开实施例的示例,其中,所述语音合成方法还包括基于所述训练输入文本生成所述训练输入文本中的每个音素的训练时长,并且所述损失函数还包括基于所述训练语音中的音素的真实时长和所述训练时长确定的时长损失函数。
12、根据本公开实施例的示例,其中所述输入文本为乐谱,并且所述合成语音为合成歌唱语音。
13、根据本公开实施例的另一方面,提供了一种语音合成装置,包括:接收单元,被配置为接收输入文本;编码单元,被配置为基于所述输入文本分别生成表征语音基频信息的预测基频特征和表征语音频谱包络信息的预测倒谱特征,基于所述预测基本文档来自技高网...
【技术保护点】
1.一种利用语音合成系统的语音合成方法,所述方法包括:
2.根据权利要求1所述的语音合成方法,其中,所述第一激励信号和所述第二激励信号是由非周期性分量和基于所述预测基频特征生成的周期性分量组成的。
3.根据权利要求1所述的语音合成方法,其中,基于所述第一声学特征和所述第二激励信号生成与所述输入文本对应的合成语音包括:
4.根据权利要求1所述的语音合成方法,所述语音合成方法还包括基于所述输入文本生成所述输入文本中的每个音素的预测时长特征,并且其中,至少基于所述第一激励信号和所述预测倒谱特征,生成用于合成语音的第一声学特征包括:
5.根据权利要求1所述的语音合成方法,其中,所述语音合成系统是通过以下方法训练的:
6.根据权利要求5所述的语音合成方法,其中,所述损失函数包括基于所述真实基频特征、所述训练基频特征、所述真实倒谱特征和所述训练倒谱特征确定的预测损失函数。
7.根据权利要求5所述的语音合成方法,其中,所述损失函数包括基于所述第一训练声学特征和所述第二训练声学特征确定的声学特征损失函数。
8.根
9.根据权利要求5所述的语音合成方法,其中,所述语音合成系统还包括判别器,并且所述损失函数还包括生成器损失函数和判别器损失函数,
10.根据权利要求5所述的语音合成方法,其中,所述语音合成方法还包括基于所述训练输入文本生成所述训练输入文本中的每个音素的训练时长,并且所述损失函数还包括基于所述训练语音中的音素的真实时长和所述训练时长确定的时长损失函数。
11.根据权利要求1所述的语音合成方法,其中所述输入文本为乐谱,并且所述合成语音为合成歌唱语音。
12.一种语音合成装置,包括:
13.一种语音合成设备,包括:
14.一种计算机可读存储介质,其上存储有计算机可读指令,所述计算机可读指令在被处理器执行时,使得所述处理器执行如权利要求1-11中任一项所述的方法。
15.一种计算机程序产品,其包括计算机可读指令,所述计算机可读指令在被处理器执行时,使得所述处理器执行如权利要求1-11中任一项所述的方法。
...【技术特征摘要】
1.一种利用语音合成系统的语音合成方法,所述方法包括:
2.根据权利要求1所述的语音合成方法,其中,所述第一激励信号和所述第二激励信号是由非周期性分量和基于所述预测基频特征生成的周期性分量组成的。
3.根据权利要求1所述的语音合成方法,其中,基于所述第一声学特征和所述第二激励信号生成与所述输入文本对应的合成语音包括:
4.根据权利要求1所述的语音合成方法,所述语音合成方法还包括基于所述输入文本生成所述输入文本中的每个音素的预测时长特征,并且其中,至少基于所述第一激励信号和所述预测倒谱特征,生成用于合成语音的第一声学特征包括:
5.根据权利要求1所述的语音合成方法,其中,所述语音合成系统是通过以下方法训练的:
6.根据权利要求5所述的语音合成方法,其中,所述损失函数包括基于所述真实基频特征、所述训练基频特征、所述真实倒谱特征和所述训练倒谱特征确定的预测损失函数。
7.根据权利要求5所述的语音合成方法,其中,所述损失函数包括基于所述第一训练声学特征和所述第二训练声学特征确定的声学特征损失函数。
...
【专利技术属性】
技术研发人员:顾宇,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。