本发明专利技术公开一种声码器模型、语音合成方法及装置。该声码器模型包括:输入层,用于接收与用于语音合成的源信息相对应的特征数据集;多个隐藏层,每一隐藏层用于确定针对各个特征数据的隐层状态数据,多个隐藏层包括至少一个第一隐藏层和与各个第一隐藏层分别相对接的多个第二隐藏层,第一隐藏层的运行频率小于第二隐藏层的运行频率;上采样单元,用于对第一隐藏层所输出的针对各个特征数据的隐层状态数据进行上采样,并将经上采样的隐层状态数据分别输入至所对接的各个第二隐藏层;输出层,用于根据由多个隐藏层所输出的针对各个特征数据的隐层状态数据来确定合成语音,由此降低该声码器模型所需要的计算资源。
Vocoder model, speech synthesis method and device
【技术实现步骤摘要】
声码器模型、语音合成方法及装置
本专利技术属于互联网
,尤其涉及一种声码器模型、语音合成方法及装置。
技术介绍
语音合成是通过机械的、电子的方法产生人造语音的技术,它是将计算机自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的语音输出的技术。目前,应用神经网络来智能合成语音已经成为了一大趋势。例如,通过WaveNet或LPCNet等神经网络声码器来智能合成语音。但是,神经网络声码器的极高的计算复杂度,而只能在高端的CPU上适用,无法被应用至一些普通的处理器或手机。针对上述问题,目前业界暂无较佳的解决方案。
技术实现思路
本专利技术实施例提供一种声码器模型、语音合成方法及装置,用于至少解决上述技术问题之一。第一方面,本专利技术实施例提供一种声码器模型,包括:输入层,用于接收与用于语音合成的源信息相对应的特征数据集;多个隐藏层,每一所述隐藏层用于确定针对各个特征数据的隐层状态数据,所述多个隐藏层包括至少一个第一隐藏层和与各个第一隐藏层分别相对接的多个第二隐藏层,所述第一隐藏层的运行频率小于所述第二隐藏层的运行频率;上采样单元,用于对所述第一隐藏层所输出的针对各个特征数据的隐层状态数据进行上采样,并将经上采样的隐层状态数据分别输入至所对接的各个第二隐藏层;输出层,用于根据由所述多个隐藏层所输出的针对各个特征数据的隐层状态数据来确定合成语音。第二方面,本专利技术实施例提供一种基于声码器模型的语音合成方法,所述声码器模型为如上所述的声码器模型,所述方法包括:获取待进行语音合成的源信息,并确定所述源信息所对应的特征数据集;将所述特征数据集提供给如上所述的声码器模型,以由该声码器模型确定与所述特征数据集相对应的合成语音,在合成语音的过程中降低所述声码器模型中各个隐藏层的运行频率。第三方面,本专利技术实施例提供一种基于声码器模型的语音合成装置,所述声码器模型为如上所述声码器模型,所述装置包括:源信息特征确定单元,被配置为获取待进行语音合成的源信息,并确定所述源信息所对应的特征数据集;声码器模型调用单元,被配置为将所述特征数据集提供给如上所述的声码器模型,以由该声码器模型确定与所述特征数据集相对应的合成语音,在合成语音的过程中降低所述声码器模型中各个隐藏层的运行频率。第四方面,本专利技术实施例提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述方法的步骤。第五方面,本专利技术实施例提供一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述方法的步骤。本专利技术实施例的有益效果在于:通过控制第一隐藏层的运行频率小于第二隐藏层的运行频率,使得声码器模型中的各个隐藏层都能处理多个隐层状态数据。在本方案中,利用了声码器模型所预测时域信号变化连续且缓慢的特点,非同步降低不同隐藏层的运行频率,不会影响合成语音的质量,并还能有效降低声码器模型实时运行所需要消耗的计算资源,能够适用于更多类型的处理器。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1示出了根据本专利技术实施例的基于声码器模型的语音合成方法的一示例的流程图;图2示出了目前相关技术中的LPCNet的一示例的结构示意图;图3示出了根据本专利技术一实施例的声码器模型的一示例的结构框图;图4示出了根据本专利技术一实施例的采用LPCNet结构的声码器模型的一示例的结构示意图;和图5示出了根据本专利技术实施例的基于声码器模型的语音合成装置的一示例的结构框图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。本专利技术可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、元件、数据结构等等。也可以在分布式计算环境中实践本专利技术,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。在本专利技术中,“模块”、“系统”等等指应用于计算机的相关实体,如硬件、硬件和软件的组合、软件或执行中的软件等。详细地说,例如,元件可以、但不限于是运行于处理器的过程、处理器、对象、可执行元件、执行线程、程序和/或计算机。还有,运行于服务器上的应用程序或脚本程序、服务器都可以是元件。一个或多个元件可在执行的过程和/或线程中,并且元件可以在一台计算机上本地化和/或分布在两台或多台计算机之间,并可以由各种计算机可读介质运行。元件还可以根据具有一个或多个数据包的信号,例如,来自一个与本地系统、分布式系统中另一元件交互的,和/或在因特网的网络通过信号与其它系统交互的数据的信号通过本地和/或远程过程来进行通信。最后,还需要说明的是,在本文中,术语“包括”、“包含”,不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。图1示出了根据本专利技术实施例的基于声码器模型的语音合成方法的一示例的流程图。如图1所示,在步骤110中,获取待进行语音合成的源信息,并确定源信息所对应的特征数据集。这里,待进行语音合成的源信息可以是通过各种方式来确定的,例如通过识别用户请求所对应的用户意图,另外,不同的用户意图可以与各自的源信息相对应,这样可以根据该用户意图来确定相匹配的源信息。进一步地,通过特征工程来确定源信息所对应的特征数据集。这里,源信息可以是在时域上具有连续性的一段内容信息,相应地,特征数据集中包括在时域上连续分布的多个特征数据。接着,在步骤120中,将特征数据集提供给声码器模型,以由该声码器模型确定与特征数据集相对应的合成语音。这里,声码器模型的类型可以不作限制,例如可以采用LPCNet结构。应理解的是,LPCNet是RNN(RecurrentNeuralNetwork,循环神经网络)结构为主体的网络。在本实施例中,在合成语音的过程中降低声码器模型中各个隐藏层的运行频率。由于声码器模型所预测时域信号变化连续且缓慢,所以降低运行本文档来自技高网...
【技术保护点】
1.一种声码器模型,包括:/n输入层,用于接收与用于语音合成的源信息相对应的特征数据集;/n多个隐藏层,每一所述隐藏层用于确定针对各个特征数据的隐层状态数据,所述多个隐藏层包括至少一个第一隐藏层和与各个第一隐藏层分别相对接的多个第二隐藏层,所述第一隐藏层的运行频率小于所述第二隐藏层的运行频率;/n上采样单元,用于对所述第一隐藏层所输出的针对各个特征数据的隐层状态数据进行上采样,并将经上采样的隐层状态数据分别输入至所对接的各个第二隐藏层;/n输出层,用于根据由所述多个隐藏层所输出的针对各个特征数据的隐层状态数据来确定合成语音。/n
【技术特征摘要】
1.一种声码器模型,包括:
输入层,用于接收与用于语音合成的源信息相对应的特征数据集;
多个隐藏层,每一所述隐藏层用于确定针对各个特征数据的隐层状态数据,所述多个隐藏层包括至少一个第一隐藏层和与各个第一隐藏层分别相对接的多个第二隐藏层,所述第一隐藏层的运行频率小于所述第二隐藏层的运行频率;
上采样单元,用于对所述第一隐藏层所输出的针对各个特征数据的隐层状态数据进行上采样,并将经上采样的隐层状态数据分别输入至所对接的各个第二隐藏层;
输出层,用于根据由所述多个隐藏层所输出的针对各个特征数据的隐层状态数据来确定合成语音。
2.如权利要求1所述的声码器模型,其中,每一所述第一隐藏层用于处理与所述第一隐藏层的运行频率相对应的第一预设数量的第一隐层状态数据,以及每一所述第二隐藏层用于处理与所述第二隐藏层的运行频率相对应的第二预设数量的第二隐层状态数据。
3.如权利要求1或2所述的声码器模型,其中,所述第一隐藏层所对接的第二隐藏层的数量与所述第二隐藏层的运行频率相对应;以及
所述上采样单元的放大倍数是根据所述第一隐藏层的运行频率相对于所述第二隐藏层的运行频率的比例来确定的。
4.如权利要求1所述的声码器模型,其中,所述声码器模型采用LPCNet结构,以及所述隐藏层为所述LPCNet结构中的GRU。
5.如权利要求1或4所述的声码器模型,其中,所述第一隐藏层的运行频率是所述第二隐藏层的运行频率的1/2。
6.一种基于声码器模型的语音合成方法,包括:
获取待进行语音合成的源信息...
【专利技术属性】
技术研发人员:李翰正,陈宽,张辉,
申请(专利权)人:苏州思必驰信息科技有限公司,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。