一种说话人声音转换方法及装置制造方法及图纸

技术编号:20006991 阅读:44 留言:0更新日期:2019-01-05 18:38
本申请公开了一种说话人声音转换方法及装置,该方法包括:在获取到源说话人的源语音数据后,可以从其中提取出表征其语音内容的内容特征,然后,将该内容特征输入至预先构建的目标特征预测模型,从而可利用该模型预测得到目标说话人说出该源语音数据的语音内容时具有的目标声学特征,接着,合成具有目标声学特征的目标语音数据,该目标语音数据与源语音数据具有相同的语义信息。可见,基于源语音数据的语音内容,通过目标特征预测模型便可以预测出目标说话人说出该源语音数据的语音内容时具有的目标声学特征,而不再考虑源语音数据的频谱和基频,故而,不再受源说话人的基频提取误差等因素的影响,从而提升了声音转换的效果。

A Speaker's Voice Conversion Method and Device

This application discloses a speaker voice conversion method and device. The method includes: after obtaining the source speaker's voice data, the content features representing the source speaker's voice content can be extracted from the source speaker's voice data, and then the content features are input into the pre-constructed target feature prediction model, so that the target speaker's voice data can be predicted by the model. Then, target speech data with target acoustic characteristics is synthesized. The target speech data has the same semantic information as the source speech data. Thus, based on the speech content of the source speech data, the target acoustic characteristics of the target speaker can be predicted by the target feature prediction model when he speaks the speech content of the source speech data, without considering the spectrum and fundamental frequency of the source speech data. Therefore, it is no longer affected by the factors such as the pitch extraction error of the source speaker, thus improving the effect of voice conversion.

【技术实现步骤摘要】
一种说话人声音转换方法及装置
本申请涉及语音合成
,尤其涉及一种说话人声音转换方法及装置。
技术介绍
说话人声音转换技术,是一种对源说话人的语音进行转换,使转换后语音具有目标说话人的音色,同时能够保持语音的语义内容不变的技术。这种技术可以应用于许多方面,具有广泛的应用前景和实用价值。例如,说话人声音转换技术可以用来丰富合成语音效果,将这种技术与语音合成系统相结合,可以方便快捷的生成具有不同音色的语音。此外,说话人声音转换技术还可以用于娱乐领域进行影视配音、用于游戏领域进行角色配音、用于安全领域进行身份隐藏、以及用于医疗领域进行辅助发声,等等。但是,采用现有的说话人声音转换方法对源说话人的语音进行转换时,转换后语音的音色与目标说话人的音色之间的相似度较低,即声音转换效果较差。
技术实现思路
本申请实施例的主要目的在于提供一种说话人声音转换方法及装置,实现提升声音转换效果的目的。本申请实施例提供了一种说话人声音转换方法,包括:获取源说话人的源语音数据;从所述源语音数据中,提取表征所述源语音数据的语音内容的内容特征;将从所述源语音数据中提取的内容特征输入至预先构建的目标特征预测模型,预测得到目标说话人说出所述源语音数据的语音内容时具有的目标声学特征;合成具有目标声学特征的目标语音数据,所述目标语音数据与所述源语音数据具有相同的语义信息。可选的,按照下述方式构建所述目标特征预测模型:获取所述目标说话人的各个第一样本语音数据;利用各个第一样本语音数据,训练得到所述目标特征预测模型。可选的,所述利用各个第一样本语音数据,训练得到所述目标特征预测模型,包括:利用各个第一样本语音数据,对预先构建的初始特征预测模型进行训练,得到所述目标特征预测模型;其中,按照下述方式构建所述初始特征预测模型:获取至少一个样本说话人的各个第二样本语音数据;利用各个第二样本语音数据,训练得到所述初始特征预测模型,所述初始特征预测模型用于根据输入语音数据的内容特征预测得到所述样本说话人说出所述输入语音数据的语音内容时具有的声学特征。可选的,所述利用各个第一样本语音数据,对预先构建的初始特征预测模型进行训练,得到所述目标特征预测模型,包括:从所述第一样本语音数据中,提取表征所述第一样本语音数据的语音内容的内容特征;从所述第一样本语音数据中,提取所述第一样本语音数据的声学特征;利用从所述第一样本语音数据中提取的内容特征和声学特征,对预先构建的初始特征预测模型进行训练,得到所述目标特征预测模型。可选的,所述利用各个第二样本语音数据,训练得到所述初始特征预测模型,包括:从所述第二样本语音数据中,提取表征所述第二样本语音数据的语音内容的内容特征;从所述第二样本语音数据中,提取所述第二样本语音数据的声学特征;利用从各个所述第二样本语音数据中提取的内容特征和声学特征,训练得到所述初始特征预测模型。可选的,所述利用从各个所述第二样本语音数据中提取的内容特征和声学特征,训练得到所述初始特征预测模型,包括:将各个所述第二样本语音数据对应的特征数据分别作为训练数据,所述训练数据包括从所述第二样本语音数据中提取的内容特征、以及所述第二样本语音数据所属的样本说话人的编码特征;利用所述各个训练数据进行多轮模型训练,训练得到所述初始特征预测模型。可选的,所述内容特征是利用预先构建的内容特征提取模型从对应语音数据中所提取的。本申请实施例还提供了一种说话人声音转换装置,包括:源语音数据获取单元,用于获取源说话人的源语音数据;内容特征提取单元,用于从所述源语音数据中,提取表征所述源语音数据的语音内容的内容特征;目标特征预测单元,用于将从所述源语音数据中提取的内容特征输入至预先构建的目标特征预测模型,预测得到目标说话人说出所述源语音数据的语音内容时具有的目标声学特征;目标语音合成单元,用于合成具有目标声学特征的目标语音数据,所述目标语音数据与所述源语音数据具有相同的语义信息。可选的,所述装置还包括:第一样本语音获取单元,用于获取所述目标说话人的各个第一样本语音数据;目标预测模型训练单元,用于利用各个第一样本语音数据,训练得到所述目标特征预测模型。可选的,所述目标预测模型训练单元,具体用于利用各个第一样本语音数据,对预先构建的初始特征预测模型进行训练,得到所述目标特征预测模型;其中,所述装置还包括:第二样本语音获取单元,用于获取至少一个样本说话人的各个第二样本语音数据;初始预测模型训练单元,用于利用各个第二样本语音数据,训练得到所述初始特征预测模型,所述初始特征预测模型用于根据输入语音数据的内容特征预测得到所述样本说话人说出所述输入语音数据的语音内容时具有的声学特征。可选的,所述目标预测模型训练单元包括:第一内容特征提取子单元,用于从所述第一样本语音数据中,提取表征所述第一样本语音数据的语音内容的内容特征;第一声学特征提取子单元,用于从所述第一样本语音数据中,提取所述第一样本语音数据的声学特征;目标预测模型训练子单元,用于利用从所述第一样本语音数据中提取的内容特征和声学特征,对预先构建的初始特征预测模型进行训练,得到所述目标特征预测模型。可选的,所述初始预测模型训练单元包括:第二内容特征提取子单元,用于从所述第二样本语音数据中,提取表征所述第二样本语音数据的语音内容的内容特征;第二声学特征提取子单元,用于从所述第二样本语音数据中,提取所述第二样本语音数据的声学特征;第一初始模型训练子单元,用于利用从各个所述第二样本语音数据中提取的内容特征和声学特征,训练得到所述初始特征预测模型。可选的,所述第一初始模型训练子单元包括:训练数据确定子单元,用于将各个所述第二样本语音数据对应的特征数据分别作为训练数据,所述训练数据包括从所述第二样本语音数据中提取的内容特征、以及所述第二样本语音数据所属的样本说话人的编码特征;第二初始模型训练子单元,用于利用所述各个训练数据进行多轮模型训练,训练得到所述初始特征预测模型。可选的,所述内容特征是利用预先构建的内容特征提取模型从对应语音数据中所提取的。本申请实施例还提供了一种说话人声音转换装置,包括:处理器、存储器、系统总线;所述处理器以及所述存储器通过所述系统总线相连;所述存储器用于存储一个或多个程序,所述一个或多个程序包括指令,所述指令当被所述处理器执行时使所述处理器执行上述说话人声音转换方法中的任意一种实现方式。本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行上述说话人声音转换方法中的任意一种实现方式。本申请实施例还提供了一种计算机程序产品,所述计算机程序产品在终端设备上运行时,使得所述终端设备执行上述说话人声音转换方法中的任意一种实现方式。本申请实施例提供的一种说话人声音转换方法及装置,在获取到源说话人的源语音数据后,可以从其中提取出表征其语音内容的内容特征,然后,将该内容特征输入至预先构建的目标特征预测模型,从而可利用该模型预测得到目标说话人说出该源语音数据的语音内容时具有的目标声学特征,接着,合成具有目标声学特征的目标语音数据,该目标语音数据与源语音数据具有相同的语义信息。可见,本申请实施例通过将提取出的表征源语音数据的语音内容的内容特征输入至预先本文档来自技高网...

【技术保护点】
1.一种说话人声音转换方法,其特征在于,包括:获取源说话人的源语音数据;从所述源语音数据中,提取表征所述源语音数据的语音内容的内容特征;将从所述源语音数据中提取的内容特征输入至预先构建的目标特征预测模型,预测得到目标说话人说出所述源语音数据的语音内容时具有的目标声学特征;合成具有目标声学特征的目标语音数据,所述目标语音数据与所述源语音数据具有相同的语义信息。

【技术特征摘要】
1.一种说话人声音转换方法,其特征在于,包括:获取源说话人的源语音数据;从所述源语音数据中,提取表征所述源语音数据的语音内容的内容特征;将从所述源语音数据中提取的内容特征输入至预先构建的目标特征预测模型,预测得到目标说话人说出所述源语音数据的语音内容时具有的目标声学特征;合成具有目标声学特征的目标语音数据,所述目标语音数据与所述源语音数据具有相同的语义信息。2.根据权利要求1所述的方法,其特征在于,按照下述方式构建所述目标特征预测模型:获取所述目标说话人的各个第一样本语音数据;利用各个第一样本语音数据,训练得到所述目标特征预测模型。3.根据权利要求2所述的方法,其特征在于,所述利用各个第一样本语音数据,训练得到所述目标特征预测模型,包括:利用各个第一样本语音数据,对预先构建的初始特征预测模型进行训练,得到所述目标特征预测模型;其中,按照下述方式构建所述初始特征预测模型:获取至少一个样本说话人的各个第二样本语音数据;利用各个第二样本语音数据,训练得到所述初始特征预测模型,所述初始特征预测模型用于根据输入语音数据的内容特征预测得到所述样本说话人说出所述输入语音数据的语音内容时具有的声学特征。4.根据权利要求3所述的方法,其特征在于,所述利用各个第一样本语音数据,对预先构建的初始特征预测模型进行训练,得到所述目标特征预测模型,包括:从所述第一样本语音数据中,提取表征所述第一样本语音数据的语音内容的内容特征;从所述第一样本语音数据中,提取所述第一样本语音数据的声学特征;利用从所述第一样本语音数据中提取的内容特征和声学特征,对预先构建的初始特征预测模型进行训练,得到所述目标特征预测模型。5.根据权利要求3所述的方法,其特征在于,所述利用各个第二样本语音数据,训练得到所述初始特征预测模型,包括:从所述第二样本语音数据中,提取表征所述第二样本语音数据的语音内容的内容特征;从所述第二样本语音数据中,提取所述第二样本语音数据的声学特征;利用从各个所述第二样本语音数据中提取的内容特征和声学特征,训练得到所述初始特征预测模型。6.根据权利要求5所述的方法,其特征在于,所述利用从各个所述第二样本语音数据中提取的内容特征和声学特征,训练得到所述初始特征预测模型,包括:将各个所述第二样本语音数据对应的特征数据分别作为训练数据,所述训练数据包括从所述第二样本语音数据中提取的内容特征、以及所述第二样本语音数据所属的样本说话人的编码特征;利用所述各个训练数据进行多轮模型训练,训练得到所述初始特征预测模型。7.根据权利要求1至6任一项所述的方法,其特征在于,所述内容特征是利用预先构建的内容特征提取模型从对应语音数据中所提取的。8.一种说话人声音转换装置,其特征在于,包括:源语音数据获取单元,用于获取源说话人的源语音数据;内容特征提取单元,用于从所述源语音数据中,提取表征所述源语音数据的语音内容的内容特征;目标特征预测单元,用于将从所述源语音数据中提取的内容特征输入至预先构建的目标特征预测模型,预测得到目标说话人说出所述源语音数据的语音内容时具有的目标声学特征;目标语音合成单元,用于合...

【专利技术属性】
技术研发人员:刘利娟江源王智国胡国平
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1