【技术实现步骤摘要】
模型训练方法、韵律预测方法、控制装置及存储介质
[0001]本专利技术涉及语音
,具体提供一种模型训练方法、韵律预测方法、控制装置及存储介质。
技术介绍
[0002]语音合成是一项利用计算机将一段文本转变为可以听得懂的、流利的汉语口语输出(自然语音流)的技术,也称文本转语音技术(TTS),是自然人机交互的重要组成部分。随着计算机技术和深度学习技术的快速发展,TTS技术也有了很大的提升,并得到了广泛的应用,如智能助手、智能音响以及语音导航等。
[0003]TTS一般由文本前端,声学模型和声码器三部分组成,其中文本前端用于完成字符到模型输入的转换,包括文本正则,韵律预测,音素转换等,其中较为重要的是韵律预测,直接决定了语音合成的流畅度,节奏感的好坏。
[0004]具体来说,文本韵律预测可分为四级,用#1
‑
#4表示,分别代表韵律词、韵律短语、语调短语及句间停顿,其中句间停顿常用于句末,韵律预测的目的旨在获得文本内容中每种韵律的边界位置。
[0005]文本韵律预测可以看作是一个序列到 ...
【技术保护点】
【技术特征摘要】
1.一种模型训练方法,其特征在于,所述方法包括:在预训练阶段,针对所述预训练阶段的每次迭代,将用于训练的文本样本输入至预设的韵律预测模型中,获得当前迭代的韵律预测结果;根据多次迭代的所述韵律预测结果和对应的所述文本样本的真值标签,对所述韵律预测模型的模型参数进行更新,以实现对所述韵律预测模型的预训练;在知识蒸馏阶段,将预训练好的所述韵律预测模型作为教师模型,进行知识蒸馏,获得学生模型;将所述学生模型,作为训练好的韵律预测模型。2.根据权利要求1所述的模型训练方法,其特征在于,所述将用于训练的文本样本输入至预设的韵律预测模型中,获得当前迭代的韵律预测结果,包括:对所述文本样本进行编码,获取所述文本样本的编码特征;对所述文本样本进行分词处理,获取所述文本样本的边界特征;将所述编码特征和所述边界特征进行拼接,获取所述文本样本的最终特征;对所述最终特征进行解码,获取所述韵律预测结果。3.根据权利要求2所述的模型训练方法,其特征在于,所述对所述最终特征进行解码,获取所述韵律预测结果,包括:应用GlobalPointer方法,对所述最终特征进行解码,获得每一种韵律对应的上三角矩阵;根据所述上三角矩阵,获取所述韵律的边界位置,以得到所述韵律预测结果。4.根据权利要求2所述的模型训练方法,其特征在于,所述对所述文本样本进行分词处理,获取所述文本样本的边界特征,包括:对所述文本样本进行分词处理,获得所述文本样本的分词序列;根据所述分词序列,进行词边界标注,获得所述边界特征。5.根据权利要求2所述的模型训练方法,其特征在于,所述韵律预测模型包括预训练语言模块;所...
【专利技术属性】
技术研发人员:段丹丹,晏超,王仲勋,兰天翼,肖万勇,
申请(专利权)人:四川云从天府人工智能科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。