【技术实现步骤摘要】
语音风格的迁移方法、装置、可读介质和电子设备
[0001]本公开涉及电子信息处理
,具体地,涉及一种语音风格的迁移方法、装置、可读介质和电子设备。
技术介绍
[0002]随着电子信息技术的不断发展,人们的娱乐生活也越来越丰富,阅读电子书已经成为了一种主流的阅读方式。为了使用户在不方便阅览电子书时,也能通过听觉来获取电子书中包括的信息,或者边读边听,从视觉和听觉两个维度来获取电子书中包括的信息,往往会为电子书预先录制对应的音频,以供用户收听。
[0003]电子书通常会根据其中的内容分为不同的风格,例如:科幻、悬疑等。相应的,朗读者在录制对应的音频时,也会按照电子书的风格进行录制,以使音频的风格与电子书的风格能够匹配。然而,由于录制成本和录制效率等原因,一部电子书对应的音频,往往只会由一个朗读者来进行录制,很难满足用户多样化的需求。若利用现有的语音合成方法来模拟其他朗读者朗读电子书的音频,由于语音合成需要借助原始音库,而原始音库通常是不带有风格的,会导致模拟出的音频的风格与电子书的风格不匹配。
技术实现思路
...
【技术保护点】
【技术特征摘要】
1.一种语音风格的迁移方法,其特征在于,所述方法包括:获取目标文本和所述目标文本对应的第一音频,所述第一音频符合第一音色且具有目标风格;提取所述目标文本对应的音素序列,所述音素序列中包括至少一个音素;提取所述第一音频对应的初始声学特征序列,所述初始声学特征序列中包括每个所述音素对应的声学特征,所述声学特征用于指示该音素的韵律特征;按照第二音色的声学统计特征对所述初始声学特征序列进行处理,得到目标声学特征序列,所述目标声学特征序列中包括每个所述音素对应的处理后的声学特征;将所述音素序列和所述目标声学特征序列,输入预先训练的语音合成模型,以得到所述语音合成模型输出的第二音频,所述第二音频符合所述第二音色且具有所述目标风格,所述语音合成模型为根据符合所述第二音色的语料训练得到的。2.根据权利要求1所述的方法,其特征在于,所述声学特征包括:基频、音量、语速中的至少一种;所述提取所述第一音频对应的初始声学特征序列,包括:若所述声学特征包括语速,根据所述音素序列和所述第一音频,确定所述第一音频中每个所述音素对应的一个或多个音频帧,并根据该音素对应的音频帧的数量确定该音素对应的语速;若所述声学特征包括音高,提取所述第一音频中的每个音频帧的音高,并根据每个音素对应的音频帧的音高,确定该音素对应的音高;若所述声学特征包括音量,提取所述第一音频中的每个音频帧的音量,并根据每个音素对应的音频帧的音量,确定该音素对应的音量。3.根据权利要求1所述的方法,其特征在于,所述声学特征包括:基频、音量、语速中的至少一种;所述按照第二音色的声学统计特征对所述初始声学特征序列进行处理,得到目标声学特征序列,包括:若所述声学特征包括语速,根据所述声学统计特征包括的语速平均值和语速方差,对每个所述音素对应的语速进行标准化,以得到该音素对应的处理后的语速;若所述声学特征包括音高,根据所述声学统计特征包括的音高平均值和音高方差,对每个所述音素对应的音高进行标准化,以得到该音素对应的处理后的音高;若所述声学特征包括音量,根据所述声学统计特征包括的音量平均值和音量方差,对每个所述音素对应的音量进行标准化,以得到该音素对应的处理后的音量。4.根据权利要求1所述的方法,其特征在于,所述语音合成模型用于:根据所述音素序列确定所述目标文本对应的文本特征序列,所述文本特征序列包括所述音素序列中每个音素对应的文本特征;根据所述文本特征序列和所述目标声学特征序列,生成所述第二音频。5.根据权利要求1
‑
4中任一项所述的方法,其特征在于,所述语音合成模型是通过如下方式训练获得的:获取训练文本、所述训练文本对应的训练音素序列和训练音频,所述训练音频符合所述第二音色,所述训练音素序列包括至少一个训练音...
【专利技术属性】
技术研发人员:伍林,吴鹏飞,潘俊杰,
申请(专利权)人:北京有竹居网络技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。