使用组合的韵律信息经由神经网络生成声学序列制造技术

技术编号:32723498 阅读:17 留言:0更新日期:2022-03-20 08:28
示例系统包括处理器,用于接收语言学序列和韵律信息偏移。该处理器可以经由经训练的韵律信息预测器,基于语言学序列来生成包括多个观察的组合的韵律信息。观察的数目包括评估预定时间段内的韵律分量的统计测量的线性组合。该处理器可以,经由经训练的神经网络,基于组合的韵律信息、韵律信息偏移和语言学序列来生成声学序列。成声学序列。成声学序列。

【技术实现步骤摘要】
【国外来华专利技术】使用组合的韵律信息经由神经网络生成声学序列

技术介绍

[0001]本技术涉及控制韵律。更具体地,这些技术涉及经由神经网络控制韵律。

技术实现思路

[0002]根据本文描述的实施例,一种系统可以包括处理器,用于接收语言学序列和韵律信息偏移。处理器还可以:经由经训练的韵律信息预测器,基于语言学序列来生成包括多个观察的组合的韵律信息。该多个观察包括评估预定时间段内的韵律分量的统计测量的线性组合。处理器还可以:经由经训练的神经网络,基于组合的韵律信息、韵律信息偏移和语言学序列来生成声学序列。
[0003]根据本文描述的另一实施例,一种方法可以包括接收语言学序列和韵律信息偏移。该方法还可以包括:经由经训练的韵律信息预测器,基于语言学序列来生成包括多个观察的组合韵律信息。该多个观察包括评估在预定时间段内的韵律分量的统计测量的线性组合。该方法还可以进一步包括:经由经训练的神经网络,基于组合的韵律信息、韵律信息偏移和语言学序列来生成声学序列。
[0004]根据本文描述的另一实施例,一种用于自动控制韵律的计算机程序产品可以包括计算机可读存储介质,该计算机可读存储介质具有随其体现的程序代码。计算机可读存储介质本身不是瞬态信号。该程序代码由处理器可执行以使处理器接收语言学序列和韵律信息偏移。该程序代码还可以使处理器基于语言学序列来生成包括多个观察的组合的韵律信息。该多个观察包括评估预定时间段内的韵律分量的统计测量的线性组合。该程序代码还可以使处理器基于组合的韵律信息、韵律信息偏移和语言学序列来生成声学序列。
[0005]根据一个方面,提供了一种系统,包括处理器,用于:接收语言学序列和韵律信息偏移;经由经训练的韵律信息预测器,基于语言学序列来生成包括多个观察的组合的韵律信息,其中该多个观察包括评估在预定时间段内的韵律分量的统计测量的线性组合;以及经由经训练的神经网络,基于组合的韵律信息、韵律信息偏移和语言学序列来生成声学序列。
[0006]根据另一方面,提供了一种计算机实现的方法,包括:接收语言学序列和韵律信息偏移;经由经训练的韵律信息预测器,基于语言学序列并且与语言学序列对齐地生成包括多个观察的组合的韵律信息,其中多个观察包括评估预定时间段内的韵律分量的统计测量的线性组合;以及经由训练的神经网络,基于组合的韵律信息、韵律信息偏移和语言学序列来生成声学序列。
[0007]根据另一方面,提供了一种用于自动控制韵律的计算机程序产品,该计算机程序产品包括计算机可读存储介质,该计算机可读存储介质具有随其体现的程序代码,其中计算机可读存储介质本身不是瞬态信号,该程序代码由处理器可执行以使处理器:接收语言学序列和韵律信息偏移;基于语言学序列来生成包括多个观察的组合的韵律信息,其中多个观察包括评估预定时间段内的韵律分量的统计测量的线性组合;以及基于组合的韵律信息、韵律信息偏移和语言学序列来生成声学序列。
附图说明
[0008]现在将参考附图仅通过示例的方式描述本专利技术的实施例,在附图中:
[0009]图1是用于训练神经网络以使用韵律信息自动控制韵律的示例系统的框图;
[0010]图2是用于生成嵌入的韵律信息的示例系统的框图;
[0011]图3是可以训练神经网络以使用韵律信息自动控制韵律的示例方法的框图;
[0012]图4是可以生成具有自动被控制的韵律的声学序列的示例方法的框图;
[0013]图5是可以使用韵律信息自动控制韵律的示例计算设备的框图;
[0014]图6是根据本文描述的实施例的示例云计算环境的图解;
[0015]图7是根据本文描述的实施例的示例抽象模型层的图解;以及
[0016]图8是可以使用韵律信息自动控制韵律的示例有形非瞬态计算机可读介质。
具体实施方式
[0017]文本到语音(TTS)系统,诸如序列到序列(seq2seq)神经TTS系统,可以接收语言学序列作为输入,并且输出语音声学序列。例如,语音声学序列可以由逐帧语音参数或由语音波形来表示。这样的系统可以生成具有韵律有一些变化的接近自然的语音质量的语音。韵律可以包括音素持续时间、语调和音量。然而,这样的系统隐式地生成语音韵律,因此这样的系统中的韵律控制可能是非常有限的。例如,如果不被引导,则这样的系统可能生成以随机的说话风格和韵律特性发出的输出。
[0018]此外,在许多应用中,可能存在控制韵律的请求,包括在推理时间的说话风格、情绪状态、说话速率和表达性。半监督方法利用韵律/说话风格标记,其可以部分或完全由人类主体生成。然而,人类标记是昂贵的、容易出错的并且耗时的。另外,存在非常少的用于语音合成的已标记资源。在基于范例的韵律控制方法中,语音的声学/韵律实现可以由任何说话方使用适当的潜在空间表示从给定的口语示例转变。然而,这些方法在大多数实际TTS应用中可能是不可行的。在无监督的方法中,可以自动训练语音声学的潜在空间。可以解开潜在参数以使它们能够在推理时间独立地操作。然而,自动被训练的潜在表示可能经常是不可解释的且严重依赖于数据的。此外,它们的可控性和合成的语音质量也可能不一致。
[0019]根据本公开的实施例,一种系统可以包括处理器,用于接收语言学序列和韵律信息偏移。处理器可以经由训练的韵律信息预测器,基于语言学序列来生成包括多个观察的组合的韵律信息。观察可以是统计测量的线性组合,其评估预定时间段内的韵律分量。处理器还可以经由训练的神经网络,基于组合的韵律信息、韵律信息偏移和语言学序列来生成声学序列。因此,本公开的实施例提供了一种全自动方法,其在系统中显式地对韵律进行建模,并且使得能够在连续的尺度上进行逐句子的说话步调和表达性控制。本文描述的技术还改进合成语音的整体质量和表达性。
[0020]现在参考图1,框图示出了用于训练神经网络以使用嵌入的韵律信息自动控制韵律的示例系统。系统100可以用于实现方法300和400,并且可使用图5的计算设备500或图8的计算机可读介质800来实现。作为一个示例,系统100可以是神经序列以对注意力进行排序。图1的系统100包括语言学编码器102。例如,语言学编码器102可以包括线性嵌入层,后面是一维卷积层,以及长短期记忆(LSTM)层。如本文所使用的,编码器的输出包括嵌入向量的序列,即离散输入向量的学习到的连续向量表示的序列。长期短期记忆是人工循环神经
网络架构。LSTM具有反馈连接,并且旨在处理数据序列。系统100包括韵律信息预测器104,韵律信息预测器104通信地耦合到语言学编码器102。例如,韵律信息预测器104可以具有被馈送到堆叠的(stacked)LSTM(128
×
3)中的嵌入的语言学序列,其后是线性全连接(FC)层。系统100还包括通信地耦合到韵律信息预测器104的连接器106。系统100还包括通信地耦合到韵律信息预测器104的组合器108。系统100包括韵律信息编码器110,韵律信息编码器110通信地耦合到韵律信息预测器104和连接器106。例如,韵律信息编码器110可以包括FC层,其后是双曲正切非线本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种系统,包括处理器,所述处理器用以:接收语言学序列和韵律信息偏移;经由经训练的韵律信息预测器,基于所述语言学序列来生成组合的韵律信息,所述组合的韵律信息包括多个观察,其中所述多个观察包括评估预定时间段内的韵律分量的统计测量的线性组合;以及经由经训练的神经网络,基于所述组合的韵律信息、所述韵律信息偏移和所述语言学序列来生成声学序列。2.根据权利要求1所述的系统,其中所述处理器可操作以:基于从未标记训练数据所提取的观察到的韵律信息来训练所述韵律信息预测器。3.根据权利要求1所述的系统,其中所述处理器可操作以:基于嵌入的语言学序列来训练所述韵律信息预测器,所述嵌入的语言学序列是由利用所述观察到的韵律信息所训练的系统生成的。4.根据前述权利要求中任一项所述的系统,其中所述处理器可操作以:基于从训练期间的记录所提取的观察到的频谱来训练所述神经网络,所述神经网络包括序列到序列神经网络,所述序列到序列神经网络包括韵律信息编码器、语言学编码器和声学解码器。5.根据前述权利要求中任一项所述的系统,其中所述处理器可操作以:基于所述韵律信息偏移来修改所述多个观察,以用特定的预定方式来调整所述声学序列的韵律。6.根据前述权利要求中任一项所述的系统,其中所述处理器可操作以:经由语言学编码器,基于所述语言学序列来生成嵌入的语言学序列。7.根据前述权利要求中任一项所述的系统,其中所述韵律分量包括配速分量、音高分量、响度分量或其任何组合。8.一种计算机实现的方法,包括:接收语言学序列和韵律信息偏移;经由经训练的韵律信息预测器,基于所述语言学序列并且与所述语言学序列对齐地生成组合的韵律信息,所述组合的韵律信息包括多个观察,其中所述多个观察包括评估预定时间段内的韵律分量的统计测量的线性组合;以及经由经训练的神经网络,基于所述组合的韵律信息、所述韵律信息偏移和所述语言学序列来生成声学序列。9.根据权利要求8所述的计算机实现的方法,包括:经由经训练的编码器,基于所述语言学序列来生成嵌入的语言学序列;以及通过求和或连结来组合所述多个观察并且对所述多个观察进行编码以生成嵌入的韵律信息,并且将所述嵌入的韵律信息与所述嵌入的语言学序列连结。10.根据权利要求8...

【专利技术属性】
技术研发人员:V
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1