用于语音合成的多发音训练方法、语音合成方法与装置制造方法及图纸

技术编号:21226445 阅读:51 留言:0更新日期:2019-05-29 07:14
本发明专利技术公开了一种用于语音合成的多发音训练方法、语音合成方法与装置,用于语音合成的多发音训练方法包括对采集的初始音频数据进行重采样处理,获取重采样音频数据;对重采样音频数据进行切割处理,获取若干种切割音频数据;对每一种切割音频数据进行文本识别处理,获取每一种切割音频数据对应的若干个文本数据,得到若干对文本音频对;对所有文本音频对进行识别比较处理,获取正确的文本音频对;对正确的文本音频对进行特征提取处理,获取训练语料参数;通过预设的深度神经网络模型对训练语料参数进行训练,生成多维度的训练语料数据;该方法能够省去人工文本标注工作,有效地提高工作效率和文本音频对的识别准确率。

Multi-pronunciation training method, speech synthesis method and device for speech synthesis

The invention discloses a MULTI-PRONUNCIATION training method, a speech synthesis method and a device for speech synthesis. The MULTI-PRONUNCIATION training method for speech synthesis includes resampling the collected initial audio data, acquiring the resampled audio data, cutting the resampled audio data, acquiring several kinds of cut audio data, and processing each kind of cut audio data. Text Recognition Processing obtains several text data corresponding to each cut audio data, and obtains several pairs of text audio pairs; recognizes and compares all text audio pairs to obtain correct text audio pairs; extracts features from correct text audio pairs to obtain training corpus parameters; and performs training corpus parameters through preset deep neural network model. The method can avoid manual text annotation and effectively improve the efficiency of work and the accuracy of text-audio pair recognition.

【技术实现步骤摘要】
用于语音合成的多发音训练方法、语音合成方法与装置
本专利技术涉及语音
,尤其涉及一种用于语音合成的多发音训练方法、语音合成方法与装置。
技术介绍
TTS(text-to-speech)技术是语音合成技术的一种,是一种输入语言文字数据,将其转换为语音的技术。随着近年人工智能技术的发展,端到端的TTS技术在深度学习的框架下发展趋向成熟,基于深度学习的端到端TTS模型主要有以谷歌为代表的Tacotron系列与以百度为代表的DeepVoice系列。端到端模型的优点是可以直接从长语音中训练,不需要繁杂的人工修正工作,然而,这种模型仍需进行人工的文本标注工作获取正确的<文本,音频>对;同时在合成具有发音人单个发音特点的语音时需要发音人的音频数据通常达数小时或数十小时,这样,在构建多发音特点的语音合成时则需要大量的录制成本。
技术实现思路
本专利技术的目的是提供一种用于语音合成的多发音训练方法、语音合成方法与装置,在进行语音训练时可以省去人工文本标注工作以及在合成多发音特点的语音时减少音频数据的录制成本。本专利技术实施例提供了一种用于语音合成的多发音训练方法,包括:对采集的初始音频数据进行重采样处理,获取重采样音频数据;对所述重采样音频数据进行切割处理,获取若干种切割音频数据;对每一种切割音频数据进行文本识别处理,获取每一种切割音频数据对应的若干个文本数据,得到若干对文本音频对;其中,所述文本数据包括中文文本数据和英文文本数据;对所有文本音频对进行识别比较处理,获取正确的文本音频对;对所述正确的文本音频对进行特征提取处理,获取训练语料参数;通过预设的深度神经网络模型对所述训练语料参数进行训练,生成多维度的训练语料数据;其中,一个维度的训练语料数据对应发音人的一个发音特点信息。优选地,所述对采集的初始音频数据进行重采样处理,获取重采样音频数据,具体包括:对采样率高的初始音频数据进行下采样处理,获取第一采样音频数据;对采样率低的初始音频数据进行上采样处理,获取第二采样音频数据;其中,所述第一采样音频数据和所述第二采样音频数据的采样率一致。优选地,所述对所述重采样音频数据进行切割处理,获取若干种切割音频数据,具体包括:通过预设若干种参数的音频分割器,对所述重采样音频数据进行切割处理,获取相对应的若干种切割音频数据。优选地,所述对每一种切割音频数据进行文本识别处理,获取每一种切割音频数据对应的若干个文本数据,得到若干对文本音频对;其中,所述文本数据包括中文文本数据和英文文本数据;具体包括:通过预设若干种参数的语音识别器,对每一种切割音频数据进行文本识别处理,获取每一种切割音频数据对应的若干个文本数据。优选地,所述对所有文本音频对进行识别比较处理,获取正确的文本音频对,具体包括:通过pypinyin包将同一切割音频数据的所有中文文本数据转化为拼音文本数据,并判断所述拼音文本数据是否相同,若相同,则对应的切割音频数据的文本音频对识别准确;通过英文单词音素表对同一切割音频数据的所有英文文本数据进行查询并判断所述英文文本数据的音素是否相同,若相同,则对应的切割音频数据的英文音频对识别准确。本专利技术实施例还提供了一种用于语音合成的多发音训练装置,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如上述的用于语音合成的多发音训练方法。本专利技术实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上述的用于语音合成的多发音训练方法。本专利技术实施例还提供了一种使用了如上述的用于语音合成的多发音训练方法的语音合成方法,包括:随机选取所述多维度的训练语料数据中若干个训练语料数据,并计算选取的若干个训练语料数据与所述多维度的训练语料数据的t-SNE距离;选取t-SNE距离最小的训练语料数据作为语音合成的发音特点参数;获取待合成文本数据,并将所述待合成文本数据和所述发音特点参数进行语音合成处理,得到待合成文本数据对应的语音合成结果。本专利技术实施例还提供了一种使用了如上述的用于语音合成的多发音训练方法的语音合成装置,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如上述的语音合成方法。本专利技术实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上述的语音合成方法。相对于现有技术,本专利技术提供的一种用于语音合成的多发音训练方法、语音合成方法的有益效果在于:本专利技术实施例提供的一种用于语音合成的多发音训练方法,通过对初始音频数据进行切割、文本识别和文本音频对识别比较处理,获取正确的文本音频对,能够省去人工文本标注工作,有效地提高工作效率和文本音频对的识别准确率。本专利技术实施例提供的一种语音合成方法,通过在经过语音训练获取的多维度的训练语料数据中随机选取若干个训练语料数据,并通过计算选取的若干个训练语料数据与所述多维度的训练语料数据的t-SNE距离确定语音合成的发音特点参数,从而根据待合成文本数据和发音特点参数进行语音合成处理,得到待合成文本数据对应的语音合成结果,有效地减少音频数据的录制成本以及额外训练成本。附图说明图1是本专利技术实施例提供的一种用于语音合成的多发音训练方法的流程示意图;图2是本专利技术实施例提供的一种语音合成方法的流程示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。请参见图1,其是本专利技术实施例提供的一种用于语音合成的多发音训练方法的流程示意图,包括:S101:对采集的初始音频数据进行重采样处理,获取重采样音频数据;S102:对所述重采样音频数据进行切割处理,获取若干种切割音频数据;S103:对每一种切割音频数据进行文本识别处理,获取每一种切割音频数据对应的若干个文本数据,得到若干对文本音频对;其中,所述文本数据包括中文文本数据和英文文本数据;S104:对所有文本音频对进行识别比较处理,获取正确的文本音频对;S105:对所述正确的文本音频对进行特征提取处理,获取训练语料参数;S106:通过预设的深度神经网络模型对所述训练语料参数进行训练,生成多维度的训练语料数据;其中,一个维度的训练语料数据对应发音人的一个发音特点信息。在本实施例中,通过对初始音频数据进行切割、文本识别和文本音频对识别比较处理,获取正确的文本音频对,能够省去人工文本标注工作,有效地提高工作效率和文本音频对的识别准确率。在一种可选的实施例中,S101:对采集的初始音频数据进行重采样处理,获取重采样音频数据,具体包括:对采样率高的初始音频数据进行下采样处理,获取第一采样音频数据;对采样率低的初始音频数据进行上采样处理,获取第二采样音频数据;其中,所述第一采样音频数据和所述第二采样音频数据的采样率一致。在本实施例中,主要是通过重采样器将本文档来自技高网...

【技术保护点】
1.一种用于语音合成的多发音训练方法,其特征在于,包括:对采集的初始音频数据进行重采样处理,获取重采样音频数据;对所述重采样音频数据进行切割处理,获取若干种切割音频数据;对每一种切割音频数据进行文本识别处理,获取每一种切割音频数据对应的若干个文本数据,得到若干对文本音频对;其中,所述文本数据包括中文文本数据和英文文本数据;对所有文本音频对进行识别比较处理,获取正确的文本音频对;对所述正确的文本音频对进行特征提取处理,获取训练语料参数;通过预设的深度神经网络模型对所述训练语料参数进行训练,生成多维度的训练语料数据;其中,一个维度的训练语料数据对应发音人的一个发音特点信息。

【技术特征摘要】
1.一种用于语音合成的多发音训练方法,其特征在于,包括:对采集的初始音频数据进行重采样处理,获取重采样音频数据;对所述重采样音频数据进行切割处理,获取若干种切割音频数据;对每一种切割音频数据进行文本识别处理,获取每一种切割音频数据对应的若干个文本数据,得到若干对文本音频对;其中,所述文本数据包括中文文本数据和英文文本数据;对所有文本音频对进行识别比较处理,获取正确的文本音频对;对所述正确的文本音频对进行特征提取处理,获取训练语料参数;通过预设的深度神经网络模型对所述训练语料参数进行训练,生成多维度的训练语料数据;其中,一个维度的训练语料数据对应发音人的一个发音特点信息。2.如权利要求1所述的用于语音合成的多发音训练方法,其特征在于,所述对采集的初始音频数据进行重采样处理,获取重采样音频数据,具体包括:对采样率高的初始音频数据进行下采样处理,获取第一采样音频数据;对采样率低的初始音频数据进行上采样处理,获取第二采样音频数据;其中,所述第一采样音频数据和所述第二采样音频数据的采样率一致。3.如权利要求1所述的用于语音合成的多发音训练方法,其特征在于,所述对所述重采样音频数据进行切割处理,获取若干种切割音频数据,具体包括:通过预设若干种参数的音频分割器,对所述重采样音频数据进行切割处理,获取相对应的若干种切割音频数据。4.如权利要求1所述的用于语音合成的多发音训练方法,其特征在于,所述对每一种切割音频数据进行文本识别处理,获取每一种切割音频数据对应的若干个文本数据,得到若干对文本音频对;其中,所述文本数据包括中文文本数据和英文文本数据;具体包括:通过预设若干种参数的语音识别器,对每一种切割音频数据进行文本识别处理,获取每一种切割音频数据对应的若干个文本数据。5.如权利要求1所述的用于语音合成的多发音训练方法,其特征在于,所述对所有文本音频对进行识别比较处理,获取正确的...

【专利技术属性】
技术研发人员:徐波
申请(专利权)人:广州多益网络股份有限公司广东利为网络科技有限公司多益网络有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1