【技术实现步骤摘要】
韵律预测模型的优化方法及系统
本专利技术涉及智能语音领域,尤其涉及一种韵律预测模型的优化方法及系统。
技术介绍
对于当前的TTS(TextToSpeech,从文本到语音)系统,韵律预测的方式主要有基于统计规则和基于神经网络模型两种,无论哪种方式,对于通用语料,都有20%左右的概率出现预测不合理。在实际应用场景里,如场景常用语句出现韵律预测不合理的情况,体验会极大下降,如何基于反馈的问题语句进行有针对地优化韵律预测,提高实际场景的合成体验,对于商用的TTS系统非常重要。目前已有的针对错误语句的韵律优化的方案有:(1)人工增加规则:通过对错误语句的特点分析总结,基于语句里分词的词面、词性、词长、句长等信息,在系统中加入对应规则,匹配相关语句并指定韵律等级。(2)增加训练数据:将问题语句通过人工标注后,加入到训练数据,重新训练模型或者规则,提高预测能力。在实现本专利技术过程中,专利技术人发现相关技术中至少存在如下问题:人工增加规则这种方案对需要优化的语句处理迅速,针对性强,但是规则灵活性不够 ...
【技术保护点】
1.一种韵律预测模型的优化方法,包括:/n对韵律预测模型预测错误的语句进行分词,其中,所述语句中韵律错误的词语带有韵律标记;/n将不带有所述韵律标记的词语确定为可替换词语,将带有所述韵律标记的词语确定为不可替换词语,对所述语句中可替换词语进行同义词增强,生成所述语句的第一训练数据集;/n通过文本相似度从语料池中获取与所述语句相似的其他语句,将所述其他语句向开发者反馈,接收开发者对所述其他语句内的词语韵律标记后的第二训练数据集;/n基于至少一部分的所述第一训练数据集以及至少一部分的所述第二训练数据集生成第三训练数据集,通过所述第三训练数据集对所述韵律预测模型进行自适应训练,以 ...
【技术特征摘要】
1.一种韵律预测模型的优化方法,包括:
对韵律预测模型预测错误的语句进行分词,其中,所述语句中韵律错误的词语带有韵律标记;
将不带有所述韵律标记的词语确定为可替换词语,将带有所述韵律标记的词语确定为不可替换词语,对所述语句中可替换词语进行同义词增强,生成所述语句的第一训练数据集;
通过文本相似度从语料池中获取与所述语句相似的其他语句,将所述其他语句向开发者反馈,接收开发者对所述其他语句内的词语韵律标记后的第二训练数据集;
基于至少一部分的所述第一训练数据集以及至少一部分的所述第二训练数据集生成第三训练数据集,通过所述第三训练数据集对所述韵律预测模型进行自适应训练,以优化所述韵律预测模型。
2.根据权利要求1所述的方法,其中,所述基于至少一部分的所述第一训练数据集以及至少一部分的所述第二训练数据集生成第三训练数据集包括:
在所述第一训练数据集中提取一部分语句确定为第一训练集,提取另一部分语句确定为第一校验集;
在所述第二训练数据集中提取一部分语句确定为第二训练集,提取另一部分语句确定为第二校验集;
将所述第一训练集以及所述第二训练集进行混合,得到第三训练数据集。
3.根据权利要求2所述的方法,其中,在所述通过所述第三训练数据集对所述韵律预测模型进行自适应训练之后,所述方法包括:
将所述第一校验集以及所述第二校验集进行混合,得到第三校验数据集;
通过所述第三校验数据集对训练后的韵律预测模型进行校验。
4.根据权利要求1所述的方法,其中,在所述对韵律预测模型预测错误的语句进行分词之前,所述方法包括:
对所述预测错误的语句进行文本正则化。
5.一种韵律预测模型的优化系统,包括:
语句分词程序模块,用于对韵律预测模型预测错误的语句进行分词,其中,所述语句中韵律错误的词语带有韵律标记;
同...
【专利技术属性】
技术研发人员:张晴,张辉,
申请(专利权)人:苏州思必驰信息科技有限公司,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。