【技术实现步骤摘要】
【国外来华专利技术】
与本公开的示例实施例一致的装置和方法涉及用于文本到语音合成的文本分析,并且更具体地涉及普通话文本(即,字符)到拼音序列的字素到音素转换。
技术介绍
1、字素到音素(g2p)转换是文本到语音(tts)合成中的主要步骤。对于一些语言(例如,英语),g2p字典包含足够的信息来为真实世界应用创建坚实的基线。对于普通话,由于高比率的多音字和频繁的声调变化,该过程复杂得多。例如,普通话中8507个最常见的字符中有546个被定义为多音字,这些多音字占普通话文本中29%的令牌出现次数。由于不同的音素通常表示不同的含义,因此消除多音字字符的歧义是语音合成的可理解性的关键组成。
2、普通话发音中被称为声调变化的特殊现象提出了附加挑战。确定在文本中的哪个位置(在哪个字符处)发生声调变化取决于词边界以及基于上下文的语义意义。此外,普通话包括特殊字符,这些特殊字符在字典中没有被注释为多音字,而是具有上下文相关的声调变化。所有的声调变化共占普通话文本中近6%的令牌出现次数。因此,处理声调变化对于合成结果的自然性是必要的。
3、3.相关技术的
4本文档来自技高网...
【技术保护点】
1.一种用于训练模型以执行端到端字符到音素(C2P)转换的方法,其特征在于,所述方法由至少一个处理器执行,并且包括:
2.根据权利要求1所述的方法,其特征在于,从所述第一数据源中选择所述多个未标记的句子包括:
3.根据权利要求1所述的方法,其特征在于,从所述第一数据源中选择所述多个未标记的句子包括:
4.根据权利要求1所述的方法,其特征在于,对所述所选择的未标记的句子和已标记的句子的所述组合语料库进行预处理以提取多个语言特征包括:
5.根据权利要求1所述的方法,其特征在于,对所述所选择的未标记的句子和已标记的句子的所述组
...【技术特征摘要】
【国外来华专利技术】
1.一种用于训练模型以执行端到端字符到音素(c2p)转换的方法,其特征在于,所述方法由至少一个处理器执行,并且包括:
2.根据权利要求1所述的方法,其特征在于,从所述第一数据源中选择所述多个未标记的句子包括:
3.根据权利要求1所述的方法,其特征在于,从所述第一数据源中选择所述多个未标记的句子包括:
4.根据权利要求1所述的方法,其特征在于,对所述所选择的未标记的句子和已标记的句子的所述组合语料库进行预处理以提取多个语言特征包括:
5.根据权利要求1所述的方法,其特征在于,对所述所选择的未标记的句子和已标记的句子的所述组合语料库进行预处理以提取多个语言特征包括:
6.根据权利要求1所述的方法,其特征在于,通过基于所提取的所述多个语言特征自动标记所述预处理的语料库中的令牌来生成混合训练数据包括:
7.根据权利要求6所述的方法,其特征在于,混合所述多个已标记的令牌包括:
8.根据权利要求1所述的方法,其特征在于,使用所述混合训练数据来训练所述预训练的模型以执行端到端c2p转换包括:
9.一种用于执行端到端字符到音素(c2p)转换的方法,其特征在于,包括:
10.根据权利要求9所述的方法,其特征在于,所述skc2p模型是经修改的bert模型并且包括所述bert模型的经修改的顶层,并且所述skc2p模型被预训练以执行端到端...
【专利技术属性】
技术研发人员:崔佳,
申请(专利权)人:腾讯美国有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。