具有多级别文本信息的神经文本到语音合成制造技术

技术编号:27306389 阅读:34 留言:0更新日期:2021-02-10 09:19
用于通过神经文本到语音(TTS)合成来生成语音的方法和装置。可以获得文本输入(1310)。可以基于所述文本输入来生成音素或字符级别文本信息(1320)。可以基于所述文本输入来生成上下文敏感文本信息(1330)。可以基于所述音素或字符级别文本信息和所述上下文敏感文本信息来生成文本特征(1340)。可以至少基于所述文本特征来生成与所述文本输入相对应的语音波形(1350)。形(1350)。形(1350)。

【技术实现步骤摘要】
【国外来华专利技术】具有多级别文本信息的神经文本到语音合成

技术介绍

[0001]文本到语音(TTS)合成旨在基于文本输入来生成相应的语音波形。TTS合成广泛应用于例如故事中的角色扮演、语音到语音翻译、对特定用户的语音定制等。神经TTS系统被越来越多地用于实施TTS合成,并且正在成为人工智能(AI)领域近些年的研究热点。与需要前端文本语言特征提取的传统TTS技术不同,神经TTS系统可以是采用端到端结构来建立模型的,并且可以直接基于文本-语音数据对来进行训练。因此,神经TTS系统可以减轻对广泛领域专业知识的需求,并且还可以节省许多辛苦工作。神经TTS系统可以联合地优化语音的发音、韵律等,这将使得比传统TTS技术更自然的合成语音。

技术实现思路

[0002]提供本
技术实现思路
以便介绍一组构思,这组构思将在以下的具体实施方式中做进一步描述。本
技术实现思路
并非旨在标识所保护主题的关键特征或必要特征,也不旨在用于限制所保护主题的范围。
[0003]本公开的实施例提出用于通过神经TTS合成来生成语音的方法和装置。可以获得文本输入。可以基于所述文本输入来生成音素或字符级别文本信息。可以基于所述文本输入来生成上下文敏感文本信息。可以基于所述音素或字符级别文本信息和所述上下文敏感文本信息来生成文本特征。可以至少基于所述文本特征来生成与所述文本输入相对应的语音波形。
[0004]应当注意,以上一个或多个方面包括以下详细描述以及权利要求中具体指出的特征。下面的说明书及附图详细提出了所述一个或多个方面的某些说明性特征。这些特征仅仅指示可以实施各个方面的原理的多种方式,并且本公开旨在包括所有这些方面和其等同变换。
附图说明
[0005]以下将结合附图描述所公开的多个方面,这些附图被提供用以说明而非限制所公开的多个方面。
[0006]图1示出了示例性传统神经TTS系统。
[0007]图2示出了根据实施例的神经TTS系统的示例性架构。
[0008]图3示出了根据实施例的用于向多输入编码器提供多级别文本信息的示例性过程。
[0009]图4示出了根据实施例的句子的示例性语法结构。
[0010]图5示出了根据实施例的多输入编码器的示例性实施方式。
[0011]图6示出了根据实施例的多输入编码器的示例性实施方式。
[0012]图7示出了根据实施例的多输入编码器的示例性实施方式。
[0013]图8示出了根据实施例的多输入编码器的示例性实施方式。
[0014]图9示出了根据实施例的多输入编码器的示例性实施方式。
[0015]图10示出了根据实施例的多输入编码器的示例性实施方式。
[0016]图11示出了根据实施例的用于训练神经TTS系统的示例性过程。
[0017]图12示出了根据实施例的用于生成语音波形的示例性处理流程。
[0018]图13示出了根据实施例的用于通过神经TTS合成来生成语音的示例性方法的流程图。
[0019]图14示出了根据实施例的用于通过神经TTS合成来生成语音的示例性装置。
[0020]图15示出了根据实施例的用于通过神经TTS合成来生成语音的示例性装置。
具体实施方式
[0021]现在将参考若干示例性实施方式来讨论本公开。应当理解,这些实施方式的讨论仅仅用于使得本领域技术人员能够更好地理解并从而实施本公开的实施例,而并非教导对本公开的范围的任何限制。
[0022]传统的神经TTS系统可以基于文本输入来生成语音波形。具体地,可以从文本输入中识别音素序列或字符序列,并且神经TTS系统进一步使用音素或字符序列来生成与文本输入相对应的语音波形。由于其端到端模型性质,神经TTS系统高度依赖于训练数据。可以通过训练语料库中的文本-语音数据对来训练神经TTS系统。在本文中,“语料库”可以指语音集合,其中每个语音利用相应的文本来标识,因此语料库可以提供多个文本-语音数据对。然而,训练语料库中的高质量文本-语音数据对的量通常非常小,尤其是与自然语言处理(NLP)任务,例如机器翻译,的数据大小相比而言。此外,训练语料库中的文本通常分布在很少的领域中,例如会话文本、新闻报道等。因此,用于神经TTS系统的训练数据不能涵盖足够丰富的文本上下文,并且通常在部署或应用神经TTS系统时遇到域外问题。在本文中,“域外问题”是指由域外文本引起的泛化问题,并且“域外”文本是指训练语料库中不涉及或者训练语料库中不涉及其相关文本输入的文本。神经TTS系统可能难以应对域外文本,并且域外文本通常在生成语音期间导致各种域外问题,例如奇怪的韵律、错误的发音、跳过或重复词语等。
[0023]此外,已知相同的文本可以对应于各种不同的发音,例如不同的速度、不同的音高重音、不同的情绪等。从数学的角度来看,从文本到语音的转换可以被视为大规模的反向问题,其将高度压缩的源,例如文本,解压缩为非常复杂的目标,例如音频信号。有许多方法来解决这种不适定的数学问题。神经TTS系统试图利用机器学习技术解决这个问题。从机器学习的角度来看,从文本到语音的转换是一对多映射问题。神经TTS系统必须应对针对给定文本输入的信号域中的大的变化。由于一对多映射性质和受限域中的小训练语料库,往往使神经TTS系统中经训练的模型成为偏倚模型。偏倚模型通常生成具有固定模式的表现力较弱的语音,例如具有平坦音高重音的阅读风格的语音等。
[0024]传统神经TTS系统仅利用音素级别文本信息或字符级别文本信息来生成语音。音素级别文本信息是指对文本输入进行发音的音素的信息表示,其是基于从文本输入中识别的音素序列来生成的,其中,音素序列是形成文本输入的发音的顺序音素的列表。字符级别文本信息是指构成文本输入的字符的信息表示,其是基于从文本输入中识别的字符序列来生成的,其中,字符序列是文本输入中包含的顺序字符的列表。由于音素或字符级别文本信息缺少文本输入中包含的上下文相关信息,因此传统神经TTS系统不能有效地解决如上所
述的域外问题和一对多映射问题。
[0025]与仅利用音素或字符级别文本信息的传统神经TTS系统不同,本公开的实施例提出进一步利用上下文敏感文本信息来改进神经TTS系统的生成能力。上下文敏感文本信息是指文本输入的信息表示,其至少反映或包含文本输入中的词语、短语或句子之间的上下文关系。上下文敏感文本信息可以包括能够反映文本输入中的上下文关系的各种类型的文本信息,包括但不限于例如词语级别文本信息、句子级别文本信息等。词语级别文本信息是指文本输入中的词语和文本输入中的词语之间隐含的上下文关系二者的信息表示。可以通过对文本输入执行预训练的词语嵌入来生成词语级别文本信息。例如,预训练的词语嵌入可以基于NLP技术,例如神经机器翻译(NMT)。句子级别文本信息是指文本输入中句子的语法解析的信息表示。可以基于文本输入中的句子的语法结构生成句子级别文本信息,并且可以采用各种语法解析技术来获得语法结构,例如斯坦福解析器(Stanford Parser)工具,其是使用从手工解析的句子获得的语言知识的统计解析器。
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于通过神经文本到语音(TTS)合成来生成语音的方法,包括:获得文本输入;基于所述文本输入来生成音素或字符级别文本信息;基于所述文本输入来生成上下文敏感文本信息;基于所述音素或字符级别文本信息和所述上下文敏感文本信息来生成文本特征;以及至少基于所述文本特征来生成与所述文本输入相对应的语音波形。2.根据权利要求1所述的方法,其中,所述音素或字符级别文本信息包括音素或字符嵌入向量序列,并且所述生成音素或字符级别文本信息包括:从所述文本输入中识别音素或字符序列;以及通过音素或字符嵌入模型,基于所述音素或字符序列来生成所述音素或字符嵌入向量序列。3.根据权利要求1所述的方法,其中,所述上下文敏感文本信息包括词语级别文本信息,并且所述生成上下文敏感文本信息包括生成所述词语级别文本信息。4.根据权利要求3所述的方法,其中,所述词语级别文本信息包括词语嵌入向量序列,并且所述生成词语级别文本信息包括:从所述文本输入中识别词语序列;以及通过词语嵌入模型,基于所述词语序列来生成所述词语嵌入向量序列。5.根据权利要求4所述的方法,其中,所述生成所述词语嵌入向量序列包括:对所述词语序列进行上采样以与所述文本输入的音素或字符序列对准;以及通过所述词语嵌入模型,基于经上采样的词语序列来生成所述词语嵌入向量序列。6.根据权利要求4所述的方法,其中,所述词语嵌入模型是基于神经机器翻译(NMT)的。7.根据权利要求3所述的方法,其中,所述生成文本特征包括:基于所述音素或字符级别文本信息和所述词语级别文本信息来生成所述文本特征。8.根据权利要求1所述的方法,其中,所述上下文敏感文本信息包括句子级别文本信息,并且所述生成上下文敏感文本信息包括生成所述句子级别文本信息。9.根据权利要求8所述的方法,其中,所述句子级别文本信息包括语法解析信息序列,并且所述生成句子级别文本信息包括:对所述文本输入执行语法解析,以获得所述文本输入的语法结构;以及基于所述语法结构来生成所述语法解析信息序列。10.根据权利要求9所述的方法,其中,所述生成所述语法解析信息序列包括:从所述语法结构中提取所述文本输入中每个词语的语法解析信息;对每个词语的所述语法解析信息进行上采样,以与所述文本输入的音素或字符序列中的相应音素或字符对准;以及将所述文本输入中所有词语的经上采样的语法解析信息组合成所述语法解析信息序列。11.根据权利要求10所述的方法,其中,每个词语的所述语法解析信息包括以下至少之一:对包含所述词语的至少一个短语的短语类型的指示;关于所述词语是否是所述至少一个短语的边界的指示;以及
对所述词语在所述至少一个短语中的相对位置的指示。12.根据权利要求8所述的方法,其中,所述生成文本特征包括:基于所述音素或字符级别文本信息和所述句子级别文本信息来生成所述文本特征。13.根据权利要求1所述的方法,其中,所述上下文敏感文本信息包括词语级别文本信息和句子级别文本信息二者,并且所述生成上下文敏感文本信息包括:生成所述词语级别文本信息;以及生成所述句子级别文本信息。14.根据权利要求13所述的方法,其中...

【专利技术属性】
技术研发人员:明怀平何磊
申请(专利权)人:微软技术许可有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利