【技术实现步骤摘要】
使用神经网络的文本到语音合成的无监督对齐
技术介绍
[0001]语音合成通常以自回归方式建模,其中统计模型用于基于输入文本序列生成输出语音。这些模型预测输入文本序列的不同音素(phoneme)长度,但单个预测不佳的音频帧可能会导致整个合成语音序列中的额外错误。自回归模型的扩展性也很差,尤其是随着序列长度的增加。此外,将自回归模型集成到并行架构中的尝试已经产生了它们自己的问题,例如音频
‑
文本对齐的问题。此外,自回归模型可能缺乏合成语音结果的多样性,其中输入文本序列在每次执行模型时都会导致相似的输出,这在许多应用中可能是不希望的。
附图说明
[0002]根据本公开的各个实施例将参照附图进行描述,在附图中:
[0003]图1示出了根据至少一个实施例的用于语音合成的管线的示例;
[0004]图2A示出了根据至少一个实施例的用于语音合成的训练管线的示例;
[0005]图2B示出了根据至少一个实施例的用于语音合成的推理管线的示例;图2C示出了根据至少一个实施例的用于语音合成的对齐架构的示例;
[ ...
【技术保护点】
【技术特征摘要】
1.一种计算机实现的方法,包括:从多个音频片段确定相应的音素持续时间、音素音调和音素能量;至少部分地基于与所述音素持续时间相对应的第一分布来确定合成语音的音频片段的对齐;以及至少部分地基于所述对齐和与所述音素音调相对应的第二分布或与音素能量相对应的第三分布中的至少一个,针对文本序列来生成包括所述文本序列的合成朗诵的音频片段。2.如权利要求1所述的计算机实现的方法,还包括:生成与一个或更多个属性相对应的第四分布,所述一个或更多个属性至少部分地基于所述第四分布与所述合成朗诵相关联。3.如权利要求1所述的计算机实现的方法,还包括:确定所述文本序列和总语音持续时间之间的对齐矩阵。4.如权利要求3所述的计算机实现的方法,还包括:对所述对齐矩阵应用先验分布以排除指定范围之外的音素和持续时间对。5.如权利要求4所述的计算机实现的方法,其中所述先验分布是雪茄形的。6.如权利要求4所述的计算机实现的方法,其中所述先验分布由β
‑
二项分布构建。7.如权利要求1所述的计算机实现的方法,还包括:从所述文本序列确定多个文本令牌;以及至少部分地基于所述对齐将所述多个文本令牌中的每一个与相应的梅尔帧对齐。8.如权利要求7所述的计算机实现的方法,其中所述对齐至少部分地基于第一时间处的梅尔帧与所述文本序列中的文本音素之间的L2距离。9.如权利要求1所述的计算机实现的方法,其中所述合成朗诵是生成的,使得第一合成朗诵不同于第二合成朗诵,所述第一合成朗诵和所述第二合成朗诵中的每一个基于所述文本序列。10.一种方法,包括:从包括人类语音的多个音频样本中确定所述多个音频样本的文本、所述多个音频样本的持续时间以及所述音频样本的音调或所述音频样本的能量中的至少一个之间的对齐;至少部分地基于所述对齐来生成对齐分布;从所述对齐分布中确定与一个或更多个说话者特征相对应的一个或更多个向量;接收文本序列;以及至少部分地基于所述文本序列...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。