The invention discloses a MULTI-PRONUNCIATION training method, a speech synthesis method and a device for speech synthesis. The MULTI-PRONUNCIATION training method for speech synthesis includes resampling the collected initial audio data, acquiring the resampled audio data, cutting the resampled audio data, acquiring several kinds of cut audio data, and processing each kind of cut audio data. Text Recognition Processing obtains several text data corresponding to each cut audio data, and obtains several pairs of text audio pairs; recognizes and compares all text audio pairs to obtain correct text audio pairs; extracts features from correct text audio pairs to obtain training corpus parameters; and performs training corpus parameters through preset deep neural network model. The method can avoid manual text annotation and effectively improve the efficiency of work and the accuracy of text-audio pair recognition.
【技术实现步骤摘要】
用于语音合成的多发音训练方法、语音合成方法与装置
本专利技术涉及语音
,尤其涉及一种用于语音合成的多发音训练方法、语音合成方法与装置。
技术介绍
TTS(text-to-speech)技术是语音合成技术的一种,是一种输入语言文字数据,将其转换为语音的技术。随着近年人工智能技术的发展,端到端的TTS技术在深度学习的框架下发展趋向成熟,基于深度学习的端到端TTS模型主要有以谷歌为代表的Tacotron系列与以百度为代表的DeepVoice系列。端到端模型的优点是可以直接从长语音中训练,不需要繁杂的人工修正工作,然而,这种模型仍需进行人工的文本标注工作获取正确的<文本,音频>对;同时在合成具有发音人单个发音特点的语音时需要发音人的音频数据通常达数小时或数十小时,这样,在构建多发音特点的语音合成时则需要大量的录制成本。
技术实现思路
本专利技术的目的是提供一种用于语音合成的多发音训练方法、语音合成方法与装置,在进行语音训练时可以省去人工文本标注工作以及在合成多发音特点的语音时减少音频数据的录制成本。本专利技术实施例提供了一种用于语音合成的多发音训练方法,包括:对采集的初始音频数据进行重采样处理,获取重采样音频数据;对所述重采样音频数据进行切割处理,获取若干种切割音频数据;对每一种切割音频数据进行文本识别处理,获取每一种切割音频数据对应的若干个文本数据,得到若干对文本音频对;其中,所述文本数据包括中文文本数据和英文文本数据;对所有文本音频对进行识别比较处理,获取正确的文本音频对;对所述正确的文本音频对进行特征提取处理,获取训练语料参数;通过预设的深度神 ...
【技术保护点】
1.一种用于语音合成的多发音训练方法,其特征在于,包括:对采集的初始音频数据进行重采样处理,获取重采样音频数据;对所述重采样音频数据进行切割处理,获取若干种切割音频数据;对每一种切割音频数据进行文本识别处理,获取每一种切割音频数据对应的若干个文本数据,得到若干对文本音频对;其中,所述文本数据包括中文文本数据和英文文本数据;对所有文本音频对进行识别比较处理,获取正确的文本音频对;对所述正确的文本音频对进行特征提取处理,获取训练语料参数;通过预设的深度神经网络模型对所述训练语料参数进行训练,生成多维度的训练语料数据;其中,一个维度的训练语料数据对应发音人的一个发音特点信息。
【技术特征摘要】
1.一种用于语音合成的多发音训练方法,其特征在于,包括:对采集的初始音频数据进行重采样处理,获取重采样音频数据;对所述重采样音频数据进行切割处理,获取若干种切割音频数据;对每一种切割音频数据进行文本识别处理,获取每一种切割音频数据对应的若干个文本数据,得到若干对文本音频对;其中,所述文本数据包括中文文本数据和英文文本数据;对所有文本音频对进行识别比较处理,获取正确的文本音频对;对所述正确的文本音频对进行特征提取处理,获取训练语料参数;通过预设的深度神经网络模型对所述训练语料参数进行训练,生成多维度的训练语料数据;其中,一个维度的训练语料数据对应发音人的一个发音特点信息。2.如权利要求1所述的用于语音合成的多发音训练方法,其特征在于,所述对采集的初始音频数据进行重采样处理,获取重采样音频数据,具体包括:对采样率高的初始音频数据进行下采样处理,获取第一采样音频数据;对采样率低的初始音频数据进行上采样处理,获取第二采样音频数据;其中,所述第一采样音频数据和所述第二采样音频数据的采样率一致。3.如权利要求1所述的用于语音合成的多发音训练方法,其特征在于,所述对所述重采样音频数据进行切割处理,获取若干种切割音频数据,具体包括:通过预设若干种参数的音频分割器,对所述重采样音频数据进行切割处理,获取相对应的若干种切割音频数据。4.如权利要求1所述的用于语音合成的多发音训练方法,其特征在于,所述对每一种切割音频数据进行文本识别处理,获取每一种切割音频数据对应的若干个文本数据,得到若干对文本音频对;其中,所述文本数据包括中文文本数据和英文文本数据;具体包括:通过预设若干种参数的语音识别器,对每一种切割音频数据进行文本识别处理,获取每一种切割音频数据对应的若干个文本数据。5.如权利要求1所述的用于语音合成的多发音训练方法,其特征在于,所述对所有文本音频对进行识别比较处理,获取正确的...
【专利技术属性】
技术研发人员:徐波,
申请(专利权)人:广州多益网络股份有限公司,广东利为网络科技有限公司,多益网络有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。