一种音频合成方法及装置制造方法及图纸

技术编号：20822459 阅读：22 留言：0更新日期：2019-04-10 06:37

本发明专利技术提供了一种音频合成方法及装置，其中，该方法包括：获取待合成音频的文本信息；将所述文本信息转换成音素信息序列；预测所述音素信息序列中每一音素的发音持续时间和基频；根据预测的所述发音持续时间与所述基频对所述音素信息序列进行音频合成。通过本发明专利技术，可以解决相关技术中经过多次合成优化语音效果不佳，听起来感觉不自然的问题，通过预测音素的持续发音数据和基频，根据才的结果合成语音，使得合成的语音更自然。

全部详细技术资料下载

【技术实现步骤摘要】
一种音频合成方法及装置
本专利技术涉及通信领域，具体而言，涉及一种音频合成方法及装置。
技术介绍
人工智能(ArtificialIntelligence，简称为AI)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语音识别、语音合成、图像识别、自然语言处理和专家系统等。其中，语音合成技术是计算机科学领域与人工智能领域中的一个重要方向。语音合成的目的实现从文本到语音，是将计算机合成的、或者外部输入的文本转变为口语输出的技术，具体是将文本转换为对应的语音信号波形的技术。语音合成时，为了防止效果太生硬，都会对语音进行优化。但是同一句话，合成两次，依然是一模一样的，很容易感觉不自然。针对相关技术中经过多次合成优化语音效果不佳，听起来感觉不自然的问题，尚未提出解决方案。
技术实现思路
本专利技术实施例提供了一种音频合成方法及装置，以至少解决相关技术中经过多次合成优化语音效果不佳，听起来感觉不自然的问题。根据本专利技术的一个实施例，提供了一种音频合成方法，包括：获取待合成音频的文本信息；将所述文本信息转换成音素信息序列；预测所述音素信息序列中每一音素的发音持续时间和基频；根据预测的所述发音持续时间与所述基频对所述音素信息序列进行音频合成。可选地，根据预测的所述发音持续时间与所述基频对所述音素信息序列进行音频合成包括：对所述文本信息进行分析；对预测的所述发音持续时间和所述基频进行调整；根据调整后的所述...

【技术保护点】
1.一种音频合成方法，其特征在于，包括：获取待合成音频的文本信息；将所述文本信息转换成音素信息序列；预测所述音素信息序列中每一音素的发音持续时间和基频；根据预测的所述发音持续时间与所述基频对所述音素信息序列进行音频合成。

【技术特征摘要】
1.一种音频合成方法，其特征在于，包括：获取待合成音频的文本信息；将所述文本信息转换成音素信息序列；预测所述音素信息序列中每一音素的发音持续时间和基频；根据预测的所述发音持续时间与所述基频对所述音素信息序列进行音频合成。2.根据权利要求1所述的方法，其特征在于，所述根据预测的所述发音持续时间与所述基频对所述音素信息序列进行音频合成包括：对所述文本信息进行分析；对预测的所述发音持续时间和所述基频进行调整；根据调整后的所述发音持续时间和所述基频对所述音素信息序列进行音频合成。3.根据权利要求2所述的方法，其特征在于，所述对预测的所述发音持续时间和所述基频进行调整包括：根据神经网络训练得到的音素与发音持续时间的对应关系调整预测的所述发音持续时间；根据神经网络训练得到的音素与基频的对应关系调整预测的所述基频。4.根据权利要求2所述的方法，其特征在于，所述根据调整后的所述发音持续时间和所述基频对所述音素信息序列进行音频合成包括：获取所述文本信息中语气词对应的音素；增加所述语气词对应的音素的发音持续时间，以及所述语气词对应的音素之后停顿的时间；将所述音素信息序列中每一音素按照调整后的所述发音持续时间、所述语气词对应的音素之后停顿的时间以及所述基频进行拼接合成音频。5.根据权利要求1至4所述的方法，其特征在于，所述根据预测的所述发音持续时间与所述基频对所述音素...

【专利技术属性】
技术研发人员：唐大闰，徐浩，吴明辉，
申请(专利权)人：秒针信息技术有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人