【技术实现步骤摘要】
一种模型训练及语音合成方法、装置、设备和介质
本申请实施例涉及人工智能、深度学习和语音
,具体涉及一种模型训练及语音合成方法、装置、设备和介质。
技术介绍
传统语音合成技术采用有监督的机器学习,即不同风格、不同情感或者不同角色的文本数据都有其相应标签,这些标签可以帮助语音合成系统更好的建模和生成语音。现有方法通常是由标注人员根据主观经验对获取的文本数据进行标签标注,但是由于各标注人员对标签理解不一致,从而导致标签标注的准确率较低,且由于需要标注人员对数据进行人工标注,因此标签标注的效率也较低。
技术实现思路
本公开实施例提供了一种模型训练及语音合成方法、装置、设备和介质。根据本申请公开的一方面,提供了一种模型训练方法,所述方法包括:获取训练数据集中的样本文本;基于预先采用无监督的训练方法训练出的声学模型,确定所述样本文本对应的标签信息;其中,所述标签信息包括风格信息和/或角色信息;基于所述样本文本以及所述样本文本对应的标签信息,对文本分类模型进行训练;其中,所 ...
【技术保护点】
1.一种模型训练方法,所述方法包括:/n获取训练数据集中的样本文本;/n基于预先采用无监督的训练方法训练出的声学模型,确定所述样本文本对应的标签信息;其中,所述标签信息包括风格信息和/或角色信息;/n基于所述样本文本以及所述样本文本对应的标签信息,对文本分类模型进行训练;其中,所述文本分类模型用于根据输入的文本输出对应的标签信息。/n
【技术特征摘要】
1.一种模型训练方法,所述方法包括:
获取训练数据集中的样本文本;
基于预先采用无监督的训练方法训练出的声学模型,确定所述样本文本对应的标签信息;其中,所述标签信息包括风格信息和/或角色信息;
基于所述样本文本以及所述样本文本对应的标签信息,对文本分类模型进行训练;其中,所述文本分类模型用于根据输入的文本输出对应的标签信息。
2.根据权利要求1所述的方法,其中,所述声学模型的训练方法包括:
获取所述训练数据集中的训练数据,所述训练数据包括样本文本的文本特征和所述样本文本对应的语音数据;
采用无监督的训练方法,基于所述训练数据对预先构建的声学模型进行训练,以建立文本特征与声学特征之间的映射关系,并获得按照风格和/或角色对所述训练数据进行聚类的聚类结果。
3.根据权利要求2所述的方法,其中,所述聚类结果包括各语音数据分别对应的标签信息;基于预先采用无监督的训练方法训练出的声学模型,确定所述样本文本对应的标签信息,包括:
将所述样本文本对应的语音数据输入训练出的所述声学模型,获得所述声学模型输出的所述样本文本对应的标签信息。
4.根据权利要求1-3中任一项所述的方法,其中,所述样本文本的生成方法包括:
获取预设数量的真人语音数据,对各所述真人语音数据执行去除背景音乐和/或噪声的操作;
对各所述真人语音数据进行切分,并获取切分后每条语音数据分别对应的文本,作为样本文本。
5.根据权利要求4所述的方法,其中,所述真人语音数据包括:文学载体的真人语音播报数据。
6.一种语音合成方法,所述方法包括:
将待合成文本输入到预先训练出的文本分类模型,获得所述分类模型输出的所述待合成文本对应的标签信息;其中,所述标签信息包括风格信息和/或角色信息;所述文本分类模型是使用权利要求1-5任一项所述的模型训练方法训练出的模型;
将所述待合成文本的文本特征以及所述待合成文本对应的标签信息,输入到预先采用无监督的训练方法训练出的声学模型,获得所述声学模型输出的所述文本特征和所述标签信息对应的声学特征;
基于所述声学特征对所述待合成文本进行语音合成,获得所述待合成文本对应的语音数据。
7.根据权利要求6所述的方法,其中,所述待合成文本包括:待合成的文学载体文本。
8.一种模型训练装置,所述装置包括:
样本文本获取模块,用于获取训练数据集中的样本文本;
标签信息确定模块,用于基于预先采用无监督的训练方法训练出的声学模型,确定所述样本文本对应的标签信息;其中,所述标签信息包括风格信息和/或角色信息;
文本分类模型训练模块,用于基于所述样本文本以及所述样本...
【专利技术属性】
技术研发人员:康永国,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。