模型训练方法、韵律预测方法、控制装置及存储介质制造方法及图纸

技术编号:38434145 阅读:28 留言:0更新日期:2023-08-11 14:20
本发明专利技术涉及语音技术领域,具体提供一种模型训练方法、韵律预测方法、控制装置及存储介质,旨在解决如何提升文本韵律预测的效率和准确率的问题。为此目的,本发明专利技术在预训练阶段,基于韵律预测模型获得每次迭代的韵律预测结果,并根据韵律预测结果和真值标签,对韵律预测模型的参数进行更新,以实现韵律预测模型的预训练。在知识蒸馏阶段,将预训练好的韵律预测模型作为教师模型进行知识蒸馏,获得学生模型,并将学生模型作为训练好的韵律预测模型。本发明专利技术采用统一建模的方式能够实现共享全部韵律特征信息,有效降低了模型的复杂度,同时应用知识蒸馏的方式获得学生模型,能够在确保准确率的前提下,有效降低模型的耗时。有效降低模型的耗时。有效降低模型的耗时。

【技术实现步骤摘要】
模型训练方法、韵律预测方法、控制装置及存储介质


[0001]本专利技术涉及语音
,具体提供一种模型训练方法、韵律预测方法、控制装置及存储介质。

技术介绍

[0002]语音合成是一项利用计算机将一段文本转变为可以听得懂的、流利的汉语口语输出(自然语音流)的技术,也称文本转语音技术(TTS),是自然人机交互的重要组成部分。随着计算机技术和深度学习技术的快速发展,TTS技术也有了很大的提升,并得到了广泛的应用,如智能助手、智能音响以及语音导航等。
[0003]TTS一般由文本前端,声学模型和声码器三部分组成,其中文本前端用于完成字符到模型输入的转换,包括文本正则,韵律预测,音素转换等,其中较为重要的是韵律预测,直接决定了语音合成的流畅度,节奏感的好坏。
[0004]具体来说,文本韵律预测可分为四级,用#1

#4表示,分别代表韵律词、韵律短语、语调短语及句间停顿,其中句间停顿常用于句末,韵律预测的目的旨在获得文本内容中每种韵律的边界位置。
[0005]文本韵律预测可以看作是一个序列到序列的建模问题,由表本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种模型训练方法,其特征在于,所述方法包括:在预训练阶段,针对所述预训练阶段的每次迭代,将用于训练的文本样本输入至预设的韵律预测模型中,获得当前迭代的韵律预测结果;根据多次迭代的所述韵律预测结果和对应的所述文本样本的真值标签,对所述韵律预测模型的模型参数进行更新,以实现对所述韵律预测模型的预训练;在知识蒸馏阶段,将预训练好的所述韵律预测模型作为教师模型,进行知识蒸馏,获得学生模型;将所述学生模型,作为训练好的韵律预测模型。2.根据权利要求1所述的模型训练方法,其特征在于,所述将用于训练的文本样本输入至预设的韵律预测模型中,获得当前迭代的韵律预测结果,包括:对所述文本样本进行编码,获取所述文本样本的编码特征;对所述文本样本进行分词处理,获取所述文本样本的边界特征;将所述编码特征和所述边界特征进行拼接,获取所述文本样本的最终特征;对所述最终特征进行解码,获取所述韵律预测结果。3.根据权利要求2所述的模型训练方法,其特征在于,所述对所述最终特征进行解码,获取所述韵律预测结果,包括:应用GlobalPointer方法,对所述最终特征进行解码,获得每一种韵律对应的上三角矩阵;根据所述上三角矩阵,获取所述韵律的边界位置,以得到所述韵律预测结果。4.根据权利要求2所述的模型训练方法,其特征在于,所述对所述文本样本进行分词处理,获取所述文本样本的边界特征,包括:对所述文本样本进行分词处理,获得所述文本样本的分词序列;根据所述分词序列,进行词边界标注,获得所述边界特征。5.根据权利要求2所述的模型训练方法,其特征在于,所述韵律预测模型包括预训练语言模块;所...

【专利技术属性】
技术研发人员:段丹丹晏超王仲勋兰天翼肖万勇
申请(专利权)人:四川云从天府人工智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1