拼接语音音频的方法、装置以及存储介质制造方法及图纸

技术编号:27805407 阅读:16 留言:0更新日期:2021-03-30 09:15
本申请公开了一种拼接语音音频的方法、装置以及存储介质。其中,该方法包括:获取用于拼接的第一语音音频和第二语音音频;生成过渡音频,过渡音频用于衔接第一语音音频和第二语音音频;以及将过渡音频插入到第一语音音频和第二语音音频之间,并且将第一语音音频、过渡音频以及第二语音音频进行拼接,生成拼接语音音频。解决了语音合成过程中需要对音频片段进行拼接,由于音频片段的拼接处不够平滑,因此与真人录音相比自然度较差的技术问题。真人录音相比自然度较差的技术问题。真人录音相比自然度较差的技术问题。

【技术实现步骤摘要】
拼接语音音频的方法、装置以及存储介质


[0001]本申请涉及计算机和人工智能领域,特别是涉及一种拼接语音音频的方法、装置以及存储介质。

技术介绍

[0002]目前TTS(Text To Speech)的拼接合成技术是通过将录音员所录的录音,根据标注格式,切割成一段一段的录音,当合成文本传入后,会根据单元挑选合适的录音进行拼接合成。例如合成人名张三,录音库里面分别存了







,通过合成这两个字来生成

张三

的音频。虽然这种合成方式在整体上会显得比较自然,但是在切割处拼接的时候会存在过渡不够平滑的问题,主要体现在姓名的合成上。现有技术一般采用TD-PSOLA算法解决这个问题,而TD-PSOLA算法在拼接过程中出现声音信号值较多的情况使用效果不佳,此外还存在合成不自然的问题,因此合成语音的自然度跟真人录音相比效果比较差。
[0003]针对上述的现有技术中存在的语音合成过程中需要对音频片段进行拼接,由于音频片段的拼接处不够平滑,因此与真人录音相比自然度较差的技术问题,目前尚未提出有效的解决方案。

技术实现思路

[0004]本公开的实施例提供了一种拼接语音音频的方法、装置以及存储介质,以至少解决现有技术中存在的文字转语音的过程中需要进行音频片段的拼接,由于音频片段的拼接处不够平滑,因此与真人录音相比自然度较差的技术问题。
[0005]根据本公开实施例的一个方面,提供了一种拼接语音音频的方法,包括:获取用于拼接的第一语音音频和第二语音音频;生成过渡音频,过渡音频用于衔接第一语音音频和第二语音音频;以及将过渡音频插入到第一语音音频和第二语音音频之间,并且将第一语音音频、过渡音频以及第二语音音频进行拼接,生成拼接语音音频。
[0006]根据本公开实施例的另一个方面,还提供了一种存储介质,存储介质包括存储的程序,其中,在程序运行时由处理器执行以上任意一项所述的方法。
[0007]根据本公开实施例的另一个方面,还提供了一种拼接语音音频的装置,包括:获取模块,用于获取用于拼接的第一语音音频和第二语音音频;生成模块,用于生成过渡音频,过渡音频用于衔接第一语音音频和第二语音音频;以及拼接模块,用于将过渡音频插入到第一语音音频和第二语音音频之间,并且将第一语音音频、过渡音频以及第二语音音频进行拼接,生成拼接语音音频。
[0008]根据本公开实施例的另一个方面,还提供了一种拼接语音音频的装置,包括:处理器;以及存储器,与处理器连接,用于为处理器提供处理以下处理步骤的指令:获取用于拼接的第一语音音频和第二语音音频;生成过渡音频,过渡音频用于衔接第一语音音频和第二语音音频;以及将过渡音频插入到第一语音音频和第二语音音频之间,并且将第一语音音频、过渡音频以及第二语音音频进行拼接,生成拼接语音音频。
[0009]在本公开实施例中,通过获取用于拼接的两个音频片段,然后生成用于平滑衔接两个音频片段的过渡音频,最终将所生成的过渡音频插入到两个音频片段之间,生成拼接语音音频。达到了在语音合成过程中可以平滑拼接连续的两个音频片段的目的,从而实现了增强合成语音的自然度和协调性,降低合成语音存在的机械感的技术效果。进而解决了现有技术中存在的语音合成过程中需要对音频片段进行拼接,由于音频片段的拼接处不够平滑,因此与真人录音相比自然度较差的技术问题。
附图说明
[0010]此处所说明的附图用来提供对本公开的进一步理解,构成本申请的一部分,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。在附图中:
[0011]图1是用于实现根据本公开实施例1所述的方法的计算设备的硬件结构框图;
[0012]图2是根据本公开实施例1的第一个方面所述的拼接语音音频的方法的流程示意图;
[0013]图3是根据本公开实施例1所述的两个连续音频拼接的波形示意图;
[0014]图4是根据本公开实施例1所述的插入过渡音频的两个连续音频拼接的波形示意图;
[0015]图5a是根据本公开实施例1所述的一个文字的波形示意图;
[0016]图5b是根据本公开实施例1所述的另一个文字的波形示意图;
[0017]图6是根据本公开实施例1所述的拼接处两个文字的波形示意图;
[0018]图7是根据本公开实施例2所述的拼接语音音频的装置的示意图;以及
[0019]图8是根据本公开实施例3所述的拼接语音音频的装置的示意图。
具体实施方式
[0020]为了使本
的人员更好地理解本公开的技术方案,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本公开一部分的实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本公开保护的范围。
[0021]需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0022]实施例1
[0023]根据本实施例,提供了一种拼接语音音频的方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或
描述的步骤。
[0024]本实施例所提供的方法实施例可以在移动终端、计算机终端、服务器或者类似的计算设备中执行。图1示出了一种用于实现拼接语音音频的方法的计算设备的硬件结构框图。如图1所示,计算设备可以包括一个或多个处理器(处理器可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器、以及用于通信功能的传输装置。除此以外,还可以包括:显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,计算设备还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
[0025]应当注意到的是上述一个或多个处理器和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外,数据处理电路可为单本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种拼接语音音频的方法,其特征在于,包括:获取用于拼接的第一语音音频和第二语音音频;生成过渡音频,所述过渡音频用于衔接所述第一语音音频和所述第二语音音频;以及将所述过渡音频插入到所述第一语音音频和所述第二语音音频之间,并且将所述第一语音音频、所述过渡音频以及所述第二语音音频进行拼接,生成拼接语音音频。2.根据权利要求1所述的方法,其特征在于,生成过渡音频的操作,包括:获取与所述第一语音音频对应的第一文本以及与所述第二语音音频对应的第二文本;以及利用预先训练的将文本转换为语音的转换模型,根据所述第一文本和所述第二文本,生成所述过渡音频。3.根据权利要求2所述的方法,其特征在于,利用预先训练的将文本转换为语音的转换模型,根据所述第一文本和所述第二文本,生成所述过渡音频的操作,包括:确定所述第一文本的尾字以及所述第二文本的首字;以及利用所述转换模型,根据所述尾字和所述首字,生成所述过渡音频。4.根据权利要求3所述的方法,其特征在于,利用所述转换模型,根据所述尾字和所述首字,生成所述过渡音频的操作,包括:利用预先训练的Tacotron模型,根据所述尾字和所述首字,生成所述过渡音频。5.根据权利要求4所述的方法,其特征在于,还包括:根据预先设置的语音音频样本,确定所述尾字和所述首字的发音的基频变化率;以及根据所述基频变化率对所述过渡音频进行修正。6.根据权利要求5所述的方法,其特征在于,确定所述尾字和所述首字的发音的基频...

【专利技术属性】
技术研发人员:黄磊杨春勇权圣
申请(专利权)人:北京中关村科金技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1