【技术实现步骤摘要】
基于因子图的语音合成方法、装置及系统
[0001]本申请涉及语音合成
,具体而言,涉及一种基于因子图的语音合成方法、装置及系统。
技术介绍
[0002]随着人工智能技术的进步,语音合成(Text To Speech,TTS)技术引起了广泛的关注。当前的研究重点聚焦于解决训练数据稀缺(few
‑
shot,少样本)甚至完全缺乏训练数据(zero
‑
shot,零样本)情况下的语音模仿问题。
[0003]然而,目前的零样本语音模仿方法受限于仅从参考音频中提取固定长度的向量,因此只能获取言辞层面的说话者特征。尽管这种方法可以在一定程度上准确反映参考音频中说话者的整体音色特性,但却无法捕捉其独特的发音模式、口音特点以及言谈节奏等微妙细节。因此,由此合成的语音与实际说话者的音色细节相似性相对较低。
[0004]针对上述的问题,目前尚未提出有效的解决方案。
技术实现思路
[0005]本申请实施例提供了一种基于因子图的语音合成方法、装置及系统,以至少解决相关技术中合成语 ...
【技术保护点】
【技术特征摘要】
1.一种基于因子图的语音合成方法,其特征在于,包括:获取与待处理的文本对应的音素序列,并从所述音素序列中提取声音特征,其中,所述声音特征包括声谱熵特征、能量特征、基频特征和声道特征;获取与待模仿对象的声音对应的待模仿音频,并从所述待模仿音频中提取高分辨率声学特征,其中,所述高分辨率声学特征为能够反映所述待模仿对象的声音细节的特征;利用因子图来融合所述声音特征和所述高分辨率声学特征,得到融合后的特征,并基于所述融合后的特征来合成与所述音素序列对应的目标语音。2.根据权利要求1所述的方法,其特征在于,利用因子图来融合所述声音特征和所述高分辨率声学特征,得到融合后的特征,包括:确定所述声音特征和所述高分辨率声学特征之间的因子函数,其中,所述因子函数描述了所述声音特征和所述高分辨率声学特征之间的关联关系;基于所述因子函数对所述声音特征和所述高分辨率声学特征进行融合,得到所述融合后的特征。3.根据权利要求2所述的方法,其特征在于,确定所述声音特征和所述高分辨率声学特征之间的因子函数包括:根据频谱分布的一致性来确定所述声谱熵特征和所述高分辨率声学特征之间的所述因子函数;根据能量分布的一致性来确定所述能量特征和所述高分辨率声学特征之间的所述因子函数;根据频率成分的相关性来确定所述基频特征和所述高分辨率声学特征之间的所述因子函数;根据共振特性的一致性来确定所述声道特征与所述高分辨率声学特征之间的所述因子函数。4.根据权利要求2所述的方法,其特征在于,基于所述因子函数对所述声音特征和所述高分辨率声学特征进行融合,包括:将所述声谱熵特征、所述能量特征、所述基频特征、所述声道特征、和所述高分辨率声学特征分别作为所述因子图的因子节点;通过所述因子函数增强、或抑制所述因子节点之间的关联关系来更新所述因子节点的节点值,直至所述节点值逐渐趋近于最优解;基于所述最优解,对所述声音特征和所述高分辨率声学特征进行融...
【专利技术属性】
技术研发人员:张青辉,王英,
申请(专利权)人:世优北京科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。