This application discloses a speaker voice conversion method and device. The method includes: after obtaining the source speaker's voice data, the content features representing the source speaker's voice content can be extracted from the source speaker's voice data, and then the content features are input into the pre-constructed target feature prediction model, so that the target speaker's voice data can be predicted by the model. Then, target speech data with target acoustic characteristics is synthesized. The target speech data has the same semantic information as the source speech data. Thus, based on the speech content of the source speech data, the target acoustic characteristics of the target speaker can be predicted by the target feature prediction model when he speaks the speech content of the source speech data, without considering the spectrum and fundamental frequency of the source speech data. Therefore, it is no longer affected by the factors such as the pitch extraction error of the source speaker, thus improving the effect of voice conversion.
【技术实现步骤摘要】
一种说话人声音转换方法及装置
本申请涉及语音合成
,尤其涉及一种说话人声音转换方法及装置。
技术介绍
说话人声音转换技术,是一种对源说话人的语音进行转换,使转换后语音具有目标说话人的音色,同时能够保持语音的语义内容不变的技术。这种技术可以应用于许多方面,具有广泛的应用前景和实用价值。例如,说话人声音转换技术可以用来丰富合成语音效果,将这种技术与语音合成系统相结合,可以方便快捷的生成具有不同音色的语音。此外,说话人声音转换技术还可以用于娱乐领域进行影视配音、用于游戏领域进行角色配音、用于安全领域进行身份隐藏、以及用于医疗领域进行辅助发声,等等。但是,采用现有的说话人声音转换方法对源说话人的语音进行转换时,转换后语音的音色与目标说话人的音色之间的相似度较低,即声音转换效果较差。
技术实现思路
本申请实施例的主要目的在于提供一种说话人声音转换方法及装置,实现提升声音转换效果的目的。本申请实施例提供了一种说话人声音转换方法,包括:获取源说话人的源语音数据;从所述源语音数据中,提取表征所述源语音数据的语音内容的内容特征;将从所述源语音数据中提取的内容特征输入至预先构建的目标特征预测模型,预测得到目标说话人说出所述源语音数据的语音内容时具有的目标声学特征;合成具有目标声学特征的目标语音数据,所述目标语音数据与所述源语音数据具有相同的语义信息。可选的,按照下述方式构建所述目标特征预测模型:获取所述目标说话人的各个第一样本语音数据;利用各个第一样本语音数据,训练得到所述目标特征预测模型。可选的,所述利用各个第一样本语音数据,训练得到所述目标特征预测模型,包括:利用各个第 ...
【技术保护点】
1.一种说话人声音转换方法,其特征在于,包括:获取源说话人的源语音数据;从所述源语音数据中,提取表征所述源语音数据的语音内容的内容特征;将从所述源语音数据中提取的内容特征输入至预先构建的目标特征预测模型,预测得到目标说话人说出所述源语音数据的语音内容时具有的目标声学特征;合成具有目标声学特征的目标语音数据,所述目标语音数据与所述源语音数据具有相同的语义信息。
【技术特征摘要】
1.一种说话人声音转换方法,其特征在于,包括:获取源说话人的源语音数据;从所述源语音数据中,提取表征所述源语音数据的语音内容的内容特征;将从所述源语音数据中提取的内容特征输入至预先构建的目标特征预测模型,预测得到目标说话人说出所述源语音数据的语音内容时具有的目标声学特征;合成具有目标声学特征的目标语音数据,所述目标语音数据与所述源语音数据具有相同的语义信息。2.根据权利要求1所述的方法,其特征在于,按照下述方式构建所述目标特征预测模型:获取所述目标说话人的各个第一样本语音数据;利用各个第一样本语音数据,训练得到所述目标特征预测模型。3.根据权利要求2所述的方法,其特征在于,所述利用各个第一样本语音数据,训练得到所述目标特征预测模型,包括:利用各个第一样本语音数据,对预先构建的初始特征预测模型进行训练,得到所述目标特征预测模型;其中,按照下述方式构建所述初始特征预测模型:获取至少一个样本说话人的各个第二样本语音数据;利用各个第二样本语音数据,训练得到所述初始特征预测模型,所述初始特征预测模型用于根据输入语音数据的内容特征预测得到所述样本说话人说出所述输入语音数据的语音内容时具有的声学特征。4.根据权利要求3所述的方法,其特征在于,所述利用各个第一样本语音数据,对预先构建的初始特征预测模型进行训练,得到所述目标特征预测模型,包括:从所述第一样本语音数据中,提取表征所述第一样本语音数据的语音内容的内容特征;从所述第一样本语音数据中,提取所述第一样本语音数据的声学特征;利用从所述第一样本语音数据中提取的内容特征和声学特征,对预先构建的初始特征预测模型进行训练,得到所述目标特征预测模型。5.根据权利要求3所述的方法,其特征在于,所述利用各个第二样本语音数据,训练得到所述初始特征预测模型,包括:从所述第二样本语音数据中,提取表征所述第二样本语音数据的语音内容的内容特征;从所述第二样本语音数据中,提取所述第二样本语音数据的声学特征;利用从各个所述第二样本语音数据中提取的内容特征和声学特征,训练得到所述初始特征预测模型。6.根据权利要求5所述的方法,其特征在于,所述利用从各个所述第二样本语音数据中提取的内容特征和声学特征,训练得到所述初始特征预测模型,包括:将各个所述第二样本语音数据对应的特征数据分别作为训练数据,所述训练数据包括从所述第二样本语音数据中提取的内容特征、以及所述第二样本语音数据所属的样本说话人的编码特征;利用所述各个训练数据进行多轮模型训练,训练得到所述初始特征预测模型。7.根据权利要求1至6任一项所述的方法,其特征在于,所述内容特征是利用预先构建的内容特征提取模型从对应语音数据中所提取的。8.一种说话人声音转换装置,其特征在于,包括:源语音数据获取单元,用于获取源说话人的源语音数据;内容特征提取单元,用于从所述源语音数据中,提取表征所述源语音数据的语音内容的内容特征;目标特征预测单元,用于将从所述源语音数据中提取的内容特征输入至预先构建的目标特征预测模型,预测得到目标说话人说出所述源语音数据的语音内容时具有的目标声学特征;目标语音合成单元,用于合...
【专利技术属性】
技术研发人员:刘利娟,江源,王智国,胡国平,
申请(专利权)人:科大讯飞股份有限公司,
类型:发明
国别省市:安徽,34
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。