一种语音合成方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:44565345 阅读:14 留言:0更新日期:2025-03-11 14:23
本申请属于人工智能和医疗及金融领域,涉及一种语音合成方法,包括对文本数据集进行音素转换和上下文嵌入,获得音素序列和文本上下文向量,提取参考音频样本的参考语音特征,输入音素级潜在扩散模型,生成音素级先验潜在特征;将音素级先验潜在特征输入音素级变分自编码模型,得到重构语音特征;提取目标音频样本的目标语音特征;将目标语音特征与音素序列对齐和上采样,得到目标音频帧级特征;基于重构语音特征和目标音频帧级特征训练得到条件控制语音合成模型,对待转换文本语音合成。本申请还提供一种语音合成装置、计算机设备及存储介质。此外,本申请还涉及区块链技术,待转换文本可存储于区块链中。本申请提高说话人保真度与文本可理解性。

【技术实现步骤摘要】

本申请涉及人工智能和金融科技以及数字医疗,尤其涉及一种语音合成方法、装置、计算机设备及存储介质


技术介绍

1、在医学与金融领域,信息的准确传递至关重要,其中文本到语音(tts)技术作为一种有效的信息传递手段,近年来取得了显著的技术进步。tts模型的设计初衷在于精准复制人类语音的多样性,包括独特的说话人身份以及语言中的细微差别,这对于提升信息传递的真实性和亲和力具有重要意义。特别是在医学诊断报告、金融数据解读等场景中,通过tts技术将文本转化为自然流畅的语音,能够显著提高信息的可访问性和理解度。

2、然而,尽管tts技术在模仿人类语音的丰富性方面取得了长足进展,但在面对多样化的控制需求时,如何实现说话人保真度与文本可理解性之间的最佳平衡,仍是当前技术面临的一大挑战。人类语音的特征极为复杂多变,包括独特的说话人身份、不同的语音节奏、语调以及语言风格等,这些都对tts模型的合成能力提出了极高的要求。

3、理想的tts模型应能够捕捉到说话人的本质特征,如音色、说话风格、口音以及情感等,以实现高保真度的语音合成。同时,该模型还需确保所合成的本文档来自技高网...

【技术保护点】

1.一种语音合成方法,其特征在于,包括下述步骤:

2.根据权利要求1所述的语音合成方法,其特征在于,所述将所述文本数据集分别输入所述音素转换层和所述上下文嵌入层进行处理,对应得到音素序列和文本上下文向量的步骤包括:

3.根据权利要求2所述的语音合成方法,其特征在于,所述XLM-RoBERTa模型包括嵌入层和Transformer编码器层;所述采用预训练的XLM-RoBERTa模型对所述文本数据集进行上下文嵌入向量表示,得到文本上下文向量的步骤包括:

4.根据权利要求1所述的语音合成方法,其特征在于,所述音素级潜在扩散模型包括音素编码器、上下文编码器、检...

【技术特征摘要】

1.一种语音合成方法,其特征在于,包括下述步骤:

2.根据权利要求1所述的语音合成方法,其特征在于,所述将所述文本数据集分别输入所述音素转换层和所述上下文嵌入层进行处理,对应得到音素序列和文本上下文向量的步骤包括:

3.根据权利要求2所述的语音合成方法,其特征在于,所述xlm-roberta模型包括嵌入层和transformer编码器层;所述采用预训练的xlm-roberta模型对所述文本数据集进行上下文嵌入向量表示,得到文本上下文向量的步骤包括:

4.根据权利要求1所述的语音合成方法,其特征在于,所述音素级潜在扩散模型包括音素编码器、上下文编码器、检索编码器、条件器和双重无分类器指导的潜在扩散编码器,所述将所述音素序列、所述文本上下文向量和所述参考语音特征输入所述音素级潜在扩散模型,融合参考条件和文本条件生成音素级先验潜在特征的步骤包括:

5.根据权利要求4所述的语音合成方法,其特征在于,所述将所述文本音素联合特征向量和所述语音风格特征向量输入...

【专利技术属性】
技术研发人员:孙奥兰王健宗程宁
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1