【技术实现步骤摘要】
语音转换模型生成方法和装置
[0001]本技术涉及语音转换模型生成方法和装置的
技术介绍
[0002]实时声音转换技术具有广泛的应用场景,是指保留原说话人的节奏、情感、语速等特征,在保持说话内容信息一致的前提下,将其实时转换为指定说话人的声音。例如,玩家在玩游戏时进行“变声”,让游戏里的语音互动变得更具娱乐性。在电话客服场景,让客服的声音变得更加柔美,提升用户的体验。在直播领域,主播通过声音转换软件转变成某位“明星”的声音,以吸引用户观看。
[0003]目前常见的变声算法主要是:1)基于数据信号处理方式来调节音调和音色,其调节出来的声音有局限性且不够逼真和自然,另外要求使用者对各类参数有一定的了解;2)基于语音合成的方法,将原始音频转为音频特征之后再通过语音合成方法合成至目标声音,该方法合成的声音较为自然,但是该方法本质上需要接收到完整的一句话音频之后才能进行转换,无法做到基本实时的同步合成。
[0004]因此,需要提出一种新的技术来解决上述现有技术中的一个或多个问题。
技术实现思路
>[0005]根据本本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种语音转换模型生成方法,该方法用于训练基于神经网络的语音转换模型,包括以下步骤:a.使用所述语音转换模型对原说话人语音进行转换;b.分别提取转换后的语音和目标说话人语音的音频特征;c.将转换后的语音和目标说话人语音的音频特征分别输入预训练好的说话人特征编码器中,分别得到原说话人特征嵌入向量和目标说话人特征嵌入向量;d.计算原说话人特征嵌入向量和目标说话人特征嵌入向量之间的损失;e.将所述损失反向传播到所述语音转换模型中,从而更新所述语音转换模型的参数;f.使用更新后的所述语音转换模型,重复上述步骤a至e,直到所述损失小于预定阈值或者迭代次数大于预定次数。2.根据权利要求1所述的方法,其中步骤a包括:使用所述语音转换模型将原说话人语音转换成在时间上连续的多个帧的语音数据。3.根据权利要求1所述的方法,其中,所述音频特征包括短时能量、过零率和梅尔倒谱系数。4.根据权利要求1所述的方法,其中,所述语音转换模型是基于时延神经网络结构的深度神经网络。5.根据权利要求1所述的方法,其中,所述原说话人语音和目标说话人语音的说话内容相同,并且均具有预定时间长度。6.根据权利要求1所述的方法,其中,原说话人语音的转换后的语音的时间延迟不超过200ms。7.一种实时语音转换方法,包括:接收原说话人语音;和使用根据权利要求1-6中的任一项所述的方法生成的语音转换模型对原说话人语音进行转换。8.一种语音转换模型生成装置,该装置用于训练基于神经网络的语音转换模型,包括:一个或多个处理器;和存储器,其上存储有可执行指令,所述可执行指令在由所述一个或多个处理器执行时使得所述一个或多个处理器:a.使用所...
【专利技术属性】
技术研发人员:刘晴,赵德欣,
申请(专利权)人:中国电信股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。