拼接语音音频的方法、装置以及存储介质制造方法及图纸

技术编号：27805407 阅读：16 留言：0更新日期：2021-03-30 09:15

本申请公开了一种拼接语音音频的方法、装置以及存储介质。其中，该方法包括：获取用于拼接的第一语音音频和第二语音音频；生成过渡音频，过渡音频用于衔接第一语音音频和第二语音音频；以及将过渡音频插入到第一语音音频和第二语音音频之间，并且将第一语音音频、过渡音频以及第二语音音频进行拼接，生成拼接语音音频。解决了语音合成过程中需要对音频片段进行拼接，由于音频片段的拼接处不够平滑，因此与真人录音相比自然度较差的技术问题。真人录音相比自然度较差的技术问题。真人录音相比自然度较差的技术问题。

全部详细技术资料下载

【技术实现步骤摘要】
拼接语音音频的方法、装置以及存储介质

[0001]本申请涉及计算机和人工智能领域，特别是涉及一种拼接语音音频的方法、装置以及存储介质。

技术介绍

[0002]目前TTS(Text To Speech)的拼接合成技术是通过将录音员所录的录音，根据标注格式，切割成一段一段的录音，当合成文本传入后，会根据单元挑选合适的录音进行拼接合成。例如合成人名张三，录音库里面分别存了
‘
张
’
、
‘
三
’
，通过合成这两个字来生成
‘
张三
’
的音频。虽然这种合成方式在整体上会显得比较自然，但是在切割处拼接的时候会存在过渡不够平滑的问题，主要体现在姓名的合成上。现有技术一般采用TD-PSOLA算法解决这个问题，而TD-PSOLA算法在拼接过程中出现声音信号值较多的情况使用效果不佳，此外还存在合成不自然的问题，因此合成语音的自然度跟真人录音相比效果比较差。
[0003]针对上述的现有技术中存在的语音合成过程中需要对音频片段进行拼接，由于音频片段的拼接处不够平滑，因此与真人录音相比自然度较差的技术问题，目前尚未提出有效的解决方案。

技术实现思路

[0004]本公开的实施例提供了一种拼接语音音频的方法、装置以及存储介质，以至少解决现有技术中存在的文字转语音的过程中需要进行音频片段的拼接，由于音频片段的拼接处不够平滑，因此与真人录音相比自然度较差的技术问题。
[0005]根据本公开实施例的一个方面，提供了一种...

【技术保护点】

【技术特征摘要】
1.一种拼接语音音频的方法，其特征在于，包括：获取用于拼接的第一语音音频和第二语音音频；生成过渡音频，所述过渡音频用于衔接所述第一语音音频和所述第二语音音频；以及将所述过渡音频插入到所述第一语音音频和所述第二语音音频之间，并且将所述第一语音音频、所述过渡音频以及所述第二语音音频进行拼接，生成拼接语音音频。2.根据权利要求1所述的方法，其特征在于，生成过渡音频的操作，包括：获取与所述第一语音音频对应的第一文本以及与所述第二语音音频对应的第二文本；以及利用预先训练的将文本转换为语音的转换模型，根据所述第一文本和所述第二文本，生成所述过渡音频。3.根据权利要求2所述的方法，其特征在于，利用预先训练的将文本转换为语音的转换模型，根据所述第一文本和所述第二文本，生成所述过渡音频的操作，包括：确定所述第一文本的尾字以及所述第二文本的首字；以及利用所述转换模型，根据所述尾字和所述首字，生成所述过渡音频。4.根据权利要求3所述的方法，其特征在于，利用所述转换模型，根据所述尾字和所述首字，生成所述过渡音频的操作，包括：利用预先训练的Tacotron模型，根据所述尾字和所述首字，生成所述过渡音频。5.根据权利要求4所述的方法，其特征在于，还包括：根据预先设置的语音音频样本，确定所述尾字和所述首字的发音的基频变化率；以及根据所述基频变化率对所述过渡音频进行修正。6.根据权利要求5所述的方法，其特征在于，确定所述尾字和所述首字的发音的基频...

【专利技术属性】
技术研发人员：黄磊，杨春勇，权圣，
申请(专利权)人：北京中关村科金技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人