【技术实现步骤摘要】
小语料语音克隆方法及装置
[0001]本申请涉及人工智能
,尤其涉及一种小语料语音克隆方法及装置。
技术介绍
[0002]语音克隆技术在专业录制的语音合成大库(通常单说话人5小时及以上)训练的模型已经非常稳定,并且在智能音箱、导航播报、文章朗读等领域的应用非常广泛。
[0003]在实际应用中,经常面临需要对具有少量语料的声音进行语音克隆的情况。而目前的语音克隆方案中,模型的训练精度是以大量的样本数据为基础的,在语料匮乏时,模型的训练效果很差,从而导致声音还原度低、发音不稳定等问题,降低了语音克隆的准确性。
[0004]通常声音克隆模型是基于一个语音合成模型(base模型)在少量数据上做微调得到的,在语料较少的情况下,微调难以控制,少量数据下的微调容易造成过拟合,导致语音合成模型对于没见过的输入文本(或拼音)序列产生发不出音或者发音不正常的情况;少量数据下的微调不足则容易导致语音合成模型的合成音色和目标克隆音色相似度不够的问题。总之,现有的语音克隆方法存在由于待克隆音色语料不足而导致的语音克隆的发音稳定性 ...
【技术保护点】
【技术特征摘要】
1.一种小语料语音克隆方法,其特征在于,包括:基于目标说话人的克隆语料,利用相似度匹配法从多人大语料库中确定大库相似语料;基于所述大库相似语料和所述克隆语料确定目标语音合成模型;将待处理文本输入至所述目标语音合成模型中进行语音合成,得到所述待处理文本对应的目标说话人的语音。2.根据权利要求1所述的小语料语音克隆方法,其特征在于,所述基于所述大库相似语料和所述克隆语料确定目标语音合成模型,包括:将所述大库相似语料和所述克隆语料作为结伴语料;基于所述结伴语料对初始语音合成模型进行训练,得到目标语音合成模型。3.根据权利要求2所述的小语料语音克隆方法,其特征在于,所述基于所述结伴语料对初始语音合成模型进行训练,得到目标语音合成模型,包括:对所述克隆语料进行预处理,得到扩充语料;基于所述扩充语料和所述结伴语料对初始语音合成模型进行训练,得到目标语音合成模型。4.根据权利要求2所述的小语料语音克隆方法,其特征在于,所述方法还包括:利用语音合成基础语料库中的语音合成数据对预设语音合成模型进行训练,得到初始语音合成模型;所述语音合成数据包括一个或多个音色对应的录音语料和标注数据。5.根据权利要求1所述的小语料语音克隆方法,其特征在于,所述基于目标说话人的克隆语料,利用相似度匹配法从多人大语料库中确定大库相似语料,包括:确定多人大语料库中的每一发音人对应的第一声纹特征,并确定所述目标说话人对应的第二声纹特征;将多个第一声纹特征与所述第二声纹特征进行相似度匹配,得到与所述第二声纹...
【专利技术属性】
技术研发人员:黄志强,陈庭威,吴凌翔,王金桥,
申请(专利权)人:中国科学院自动化研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。