一种语音合成方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:34201848 阅读:15 留言:0更新日期:2022-07-20 10:52
本发明专利技术公开了一种语音合成方法、装置、计算机设备和存储介质。该方法包括:获取待语音合成文本,并将待语音合成文本分割为多个文本片段;按照各文本片段在所述待语音合成文本中的先后顺序,对各所述文本片段进行语音合成,得到各文本片段匹配的语音片段;在对各所述文本片段进行语音合成的过程中,按照各所述语音片段的合成顺序,对各所述语音片段进行播放。使用本发明专利技术的技术方案,可以实现在保证语音合成效果的同时,提高语音合成的效率。提高语音合成的效率。提高语音合成的效率。

A speech synthesis method, device, computer equipment and storage medium

【技术实现步骤摘要】
一种语音合成方法、装置、计算机设备和存储介质


[0001]本专利技术实施例涉及数据处理技术,尤其涉及一种语音合成方法、装置、计算机设备和存储介质。

技术介绍

[0002]语音合成是指将文字信息转换为语音输出的技术,语音合成系统分为在线语音合成和离线语音合成,在线语音合成由部署在服务器中的语音合成模型来实现,离线语音合成由部署在终端设备上的语音合成模型来实现。
[0003]由于终端设备的算力要远远低于服务器,将语音合成模型部署到终端设备时,需要降低其算法复杂度,因此,离线语音合成模型合成语音的效果较差,例如,合成出来的语音会丢失情感、抑扬顿挫等特征。并且,对于较长的语句,需要耗费较长的时间。

技术实现思路

[0004]本专利技术实施例提供一种语音合成方法、装置、计算机设备和存储介质,以实现在保证语音合成效果的同时,提高语音合成的效率。
[0005]第一方面,本专利技术实施例提供了一种语音合成方法,该方法包括:
[0006]获取待语音合成文本,并将待语音合成文本分割为多个文本片段;
[0007]按照各文本片段在所述待语音合成文本中的先后顺序,对各所述文本片段进行语音合成,得到各文本片段匹配的语音片段;
[0008]在对各所述文本片段进行语音合成的过程中,按照各所述语音片段的合成顺序,对各所述语音片段进行播放。
[0009]第二方面,本专利技术实施例还提供了一种语音合成装置,该装置包括:
[0010]待语音合成文本分割模块,用于获取待语音合成文本,并将待语音合成文本分割为多个文本片段;
[0011]语音片段获取模块,用于按照各文本片段在所述待语音合成文本中的先后顺序,对各所述文本片段进行语音合成,得到各文本片段匹配的语音片段;
[0012]语音片段播放模块,用于在对各所述文本片段进行语音合成的过程中,按照各所述语音片段的合成顺序,对各所述语音片段进行播放。
[0013]第三方面,本专利技术实施例还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如本专利技术实施例中任一所述的语音合成方法。
[0014]第四方面,本专利技术实施例还提供了一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如本专利技术实施例中任一所述的语音合成方法。
[0015]本专利技术实施例通过将待语音合成文本分割为多个文本片段,按照各文本片段在待语音合成文本中的先后顺序进行语音合成,生成语音片段,并在语音合成的过程中,按照语
音片段的合成顺序对各语音片段进行播放。解决了现有技术中离线语音合成模型合成语音的效果较差,以及对于较长的文本语音合成的耗时较长的问题,实现了在保证语音合成效果的同时,提高语音合成效率的效果。
附图说明
[0016]图1是本专利技术实施例一中的一种语音合成方法的流程图;
[0017]图2a是本专利技术实施例二中的一种语音合成方法的流程图;
[0018]图2b是适用于本专利技术实施例中的一种将文本片段存储到文本片段队列的示意图;
[0019]图2c是适用于本专利技术实施例中的一种将语音片段存储到语音片段队列的示意图;
[0020]图2d是适用于本专利技术实施例中的一种播放器播放语音片段的示意图;
[0021]图3是本专利技术实施例三中的一种语音合成装置的结构示意图;
[0022]图4是本专利技术实施例四中的一种计算机设备的结构示意图。
具体实施方式
[0023]下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部结构。
[0024]实施例一
[0025]图1是本专利技术实施例一提供的一种语音合成方法的流程图,本实施例可适用于对文本进行离线语音合成的情况,该方法可以由语音合成装置来执行,该装置可以由软件和/或硬件来实现,并一般集成在计算机设备中。
[0026]如图1所示,本专利技术实施例的技术方案,具体包括如下步骤:
[0027]S110、获取待语音合成文本,并将待语音合成文本分割为多个文本片段。
[0028]其中,待语音合成文本是需要对其进行离线语音合成的文本,待语音合成文本可以包括英文、中文或者数字等多种形式。文本片段是根据一定的文本分割规则,将待语音合成文本分割成的片段。
[0029]在本专利技术实施例中,将待语音合成文本进行分割,分割为多个较小的文本片段。这样设置的好处在于,对于离线语音合成模型而言,短句的语音合成速度明显优于长句的语音合成速度,将待语音合成文本分割为多个短小的文本片段进行语音合成,可以解决现有技术中的离线语音合成模型长句合成难的问题,提高语音合成的速度。
[0030]S120、按照各文本片段在所述待语音合成文本中的先后顺序,对各所述文本片段进行语音合成,得到各文本片段匹配的语音片段。
[0031]语音合成是指将文字信息转换为语音输出的过程,在本专利技术实施例中,按照各文本片段在待语音合成文本中的先后顺序进行语音合成,在前的文本片段先进行语音合成,在后的文本片段后进行语音合成,生成的语音片段的排列顺序与文本片段在待语音合成文本中的排列顺序相同。
[0032]S130、在对各所述文本片段进行语音合成的过程中,按照各所述语音片段的合成顺序,对各所述语音片段进行播放。
[0033]在本专利技术实施例中,根据语音片段的合成顺序,依次对语音片段进行播放。在后的
文本片段进行语音合成的同时,对在前的文本片段进行语音合成生成的语音片段进行播放,在前的语音片段播放完成后,在后的文本片段也语音合成完毕,各语音片段可以实现无缝衔接播放。
[0034]这种将待语音合成文本分割为多个文本片段,对文本片段按照顺序进行语音合成的同时,对语音片段按照顺序进行播放的方式,在保证了语音合成效果的同时,使离线语音合成更加快速。
[0035]本实施例的技术方案,通过将待语音合成文本分割为多个文本片段,按照各文本片段在待语音合成文本中的先后顺序进行语音合成,生成语音片段,并在语音合成的过程中,按照语音片段的合成顺序对各语音片段进行播放。解决了现有技术中离线语音合成模型合成语音的效果较差,以及对于较长的文本语音合成的耗时较长的问题,实现了在保证语音合成效果的同时,提高语音合成效率的效果。
[0036]可选的,在将待语音合成文本分割为多个文本片段之后,还可以包括:将分割得到的各所述文本片段依次存储于文本片段队列中;按照各文本片段在所述待语音合成文本中的先后顺序,对各所述文本片段进行语音合成,可以包括:从所述文本片段队列中依次获取各所述文本片段,并分别对获取的各所述文本片段进行语音合成。
[0037]文本片段队列用于存储待语音合成文本分割后的各文本片段,文本片段队列是先入先出队列,将各文本片段按照在待语音合成文本中的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音合成方法,其特征在于,包括:获取待语音合成文本,并将待语音合成文本分割为多个文本片段;按照各文本片段在所述待语音合成文本中的先后顺序,对各所述文本片段进行语音合成,得到各文本片段匹配的语音片段;在对各所述文本片段进行语音合成的过程中,按照各所述语音片段的合成顺序,对各所述语音片段进行播放。2.根据权利要求1所述的方法,其特征在于,在将待语音合成文本分割为多个文本片段之后,还包括:将分割得到的各所述文本片段依次存储于文本片段队列中;按照各文本片段在所述待语音合成文本中的先后顺序,对各所述文本片段进行语音合成,包括:从所述文本片段队列中依次获取各所述文本片段,并分别对获取的各所述文本片段进行语音合成。3.根据权利要求1所述的方法,其特征在于,在得到各文本片段匹配的语音片段之后,还包括:将各语音片段依次存储于语音片段队列中;按照各所述语音片段的合成顺序,对各所述语音片段进行播放,包括:从所述语音片段队列中依次获取各所述语音片段,并分别对获取的各所述语音片段进行播放。4.根据权利要求1所述的方法,其特征在于,获取待语音合成文本,并将待语音合成文本分割为多个文本片段,包括:通过语义分析模型,将待语音合成文本根据文本分割规则进行分割,获得多个文本片段;其中,所述文本分割规则包括以下至少一项:标点符号分割规则、语种分割规则以及词义分割规则。5.根据权利要求2所述的方法,其特征在于,所述从所述文本片段队列中依次获取各所述文本片段,并分别对获取的各所述文本片段进行语音合成,包括:通过离线语音合成模型,在所述文本片段队列中依次获取文本片段,并对获取的各文本片段进行离线语音合成,生成与各文本片段匹配的语音片段。6.根据权利要求5所述的方法,其特征在于,在将待语音合成文本分割为多个文本片段之后,还包括:根据各文本片段对应的语种类型,生成各文本片段的语种标签,将各文本片段以及对应的语种标签依次放入文本片段队列中;从所述文本片段队列中依次获取各所述文本片段,并分别对获取的各所述文本片段进行语音合成,包括:在文本片段队列中依次获取各文本片段,根据各文本片段对应的语种标签确定匹配的离线语音合成模型,并通过与文本片段匹配的离线语音合成模型进行语音合成。7.根据权利要求6所述的方法,其特征在于,所述离线语音合成模型中包括情感分析模块;
所述通过与文本片段匹配的离线语音合成模型进行语音合成,包括:通过与文本片段匹配的离线语音合成模型中的情感分析模块,依次对各文本片段进行情感分析;根据各文本片段的情感分析结果,对各文本片段进行离线语音合成...

【专利技术属性】
技术研发人员:丁雪枫
申请(专利权)人:大众问问北京信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1