一种音频合成方法及装置制造方法及图纸

技术编号:20822459 阅读:22 留言:0更新日期:2019-04-10 06:37
本发明专利技术提供了一种音频合成方法及装置,其中,该方法包括:获取待合成音频的文本信息;将所述文本信息转换成音素信息序列;预测所述音素信息序列中每一音素的发音持续时间和基频;根据预测的所述发音持续时间与所述基频对所述音素信息序列进行音频合成。通过本发明专利技术,可以解决相关技术中经过多次合成优化语音效果不佳,听起来感觉不自然的问题,通过预测音素的持续发音数据和基频,根据才的结果合成语音,使得合成的语音更自然。

【技术实现步骤摘要】
一种音频合成方法及装置
本专利技术涉及通信领域,具体而言,涉及一种音频合成方法及装置。
技术介绍
人工智能(ArtificialIntelligence,简称为AI)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语音识别、语音合成、图像识别、自然语言处理和专家系统等。其中,语音合成技术是计算机科学领域与人工智能领域中的一个重要方向。语音合成的目的实现从文本到语音,是将计算机合成的、或者外部输入的文本转变为口语输出的技术,具体是将文本转换为对应的语音信号波形的技术。语音合成时,为了防止效果太生硬,都会对语音进行优化。但是同一句话,合成两次,依然是一模一样的,很容易感觉不自然。针对相关技术中经过多次合成优化语音效果不佳,听起来感觉不自然的问题,尚未提出解决方案。
技术实现思路
本专利技术实施例提供了一种音频合成方法及装置,以至少解决相关技术中经过多次合成优化语音效果不佳,听起来感觉不自然的问题。根据本专利技术的一个实施例,提供了一种音频合成方法,包括:获取待合成音频的文本信息;将所述文本信息转换成音素信息序列;预测所述音素信息序列中每一音素的发音持续时间和基频;根据预测的所述发音持续时间与所述基频对所述音素信息序列进行音频合成。可选地,根据预测的所述发音持续时间与所述基频对所述音素信息序列进行音频合成包括:对所述文本信息进行分析;对预测的所述发音持续时间和所述基频进行调整;根据调整后的所述发音持续时间和所述基频对所述音素信息序列进行音频合成。可选地,对预测的所述发音持续时间和所述基频进行调整包括:根据神经网络训练得到的音素与发音持续时间的对应关系调整预测的所述发音持续时间;根据神经网络训练得到的音素与基频的对应关系调整预测的所述基频。可选地,根据调整后的所述发音持续时间和所述基频对所述音素信息序列进行音频合成包括:获取所述文本信息中语气词对应的音素;增加所述语气词对应的音素的发音持续时间,以及所述语气词对应的音素之后停顿的时间;将所述音素信息序列中每一音素按照调整后的所述发音持续时间、所述语气词对应的音素之后停顿的时间以及所述基频进行拼接合成音频。可选地,根据预测的所述发音持续时间与所述基频对所述音素信息序列进行音频合成包括:获取预先保存的噪音和回音;根据预测的所述发音持续时间、所述基频、所述噪音以及所述回音对所述音素信息序列进行音频合成。根据本专利技术的另一个实施例,还提供了一种音频合成装置,包括:获取模块,用于获取待合成音频的文本信息;转换模块,用于将所述文本信息转换成音素信息序列;预测模块,用于预测所述音素信息序列中每一音素的发音持续时间和基频;合成模块,用于根据预测的所述发音持续时间与所述基频对所述音素信息序列进行音频合成。可选地,所述合成模块包括:分析单元,用于对所述文本信息进行分析;调整单元,用于对预测的所述发音持续时间和所述基频进行调整;第一合成单元,用于根据调整后的所述发音持续时间和所述基频对所述音素信息序列进行音频合成。可选地,所述调整单元,还用于根据神经网络训练得到的音素与发音持续时间的对应关系调整预测的所述发音持续时间;根据神经网络训练得到的音素与基频的对应关系调整预测的所述基频。可选地,所述第一合成单元,还用于获取所述文本信息中语气词对应的音素;增加所述语气词对应的音素的发音持续时间,以及所述语气词对应的音素之后停顿的时间;将所述音素信息序列中每一音素按照调整后的所述发音持续时间、所述语气词对应的音素之后停顿的时间以及所述基频进行拼接合成音频。可选地,所述合成模块包括:获取单元,用于获取预先保存的噪音和回音;第二合成单元,用于根据预测的所述发音持续时间、所述基频、所述噪音以及所述回音对所述音素信息序列进行音频合成。根据本专利技术的又一个实施例,还提供了一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。根据本专利技术的又一个实施例,还提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。通过本专利技术,获取待合成音频的文本信息;将所述文本信息转换成音素信息序列;预测所述音素信息序列中每一音素的发音持续时间;预测所述音素信息序列中每一音素的基频;根据预测的所述发音持续时间与所述基频对所述音素信息序列进行音频合成。因此,可以解决相关技术中经过多次合成优化语音效果不佳,听起来感觉不自然的问题,通过预测音素的持续发音数据和基频,根据才的结果合成语音,使得合成的语音更自然。附图说明此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1是本专利技术实施例的一种音频合成方法的移动终端的硬件结构框图;图2是根据本专利技术实施例的音频合成方法的流程图;图3是根据本专利技术实施例的增强真实感音频合成的流程图;图4是根据本专利技术实施例的音频合成装置的框图;图5是根据本专利技术优选实施例的音频合成装置的框图一;图6是根据本专利技术优选实施例的音频合成装置的框图二。具体实施方式下文中将参考附图并结合实施例来详细说明本专利技术。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。需要说明的是,本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。实施例1本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例,图1是本专利技术实施例的一种音频合成方法的移动终端的硬件结构框图,如图1所示,移动终端10可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104,可选地,上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述移动终端的结构造成限定。例如,移动终端10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本专利技术实施例中的报文接收方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至移动终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端10的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(Ne本文档来自技高网...

【技术保护点】
1.一种音频合成方法,其特征在于,包括:获取待合成音频的文本信息;将所述文本信息转换成音素信息序列;预测所述音素信息序列中每一音素的发音持续时间和基频;根据预测的所述发音持续时间与所述基频对所述音素信息序列进行音频合成。

【技术特征摘要】
1.一种音频合成方法,其特征在于,包括:获取待合成音频的文本信息;将所述文本信息转换成音素信息序列;预测所述音素信息序列中每一音素的发音持续时间和基频;根据预测的所述发音持续时间与所述基频对所述音素信息序列进行音频合成。2.根据权利要求1所述的方法,其特征在于,所述根据预测的所述发音持续时间与所述基频对所述音素信息序列进行音频合成包括:对所述文本信息进行分析;对预测的所述发音持续时间和所述基频进行调整;根据调整后的所述发音持续时间和所述基频对所述音素信息序列进行音频合成。3.根据权利要求2所述的方法,其特征在于,所述对预测的所述发音持续时间和所述基频进行调整包括:根据神经网络训练得到的音素与发音持续时间的对应关系调整预测的所述发音持续时间;根据神经网络训练得到的音素与基频的对应关系调整预测的所述基频。4.根据权利要求2所述的方法,其特征在于,所述根据调整后的所述发音持续时间和所述基频对所述音素信息序列进行音频合成包括:获取所述文本信息中语气词对应的音素;增加所述语气词对应的音素的发音持续时间,以及所述语气词对应的音素之后停顿的时间;将所述音素信息序列中每一音素按照调整后的所述发音持续时间、所述语气词对应的音素之后停顿的时间以及所述基频进行拼接合成音频。5.根据权利要求1至4所述的方法,其特征在于,所述根据预测的所述发音持续时间与所述基频对所述音素...

【专利技术属性】
技术研发人员:唐大闰徐浩吴明辉
申请(专利权)人:秒针信息技术有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1