【技术实现步骤摘要】
基于自监督模型的歌声转换方法、设备及可读存储介质
[0001]本专利技术涉及人工智能
,尤其涉及一种基于自监督模型的歌声转换方法、装置、电子设备及计算机可读存储介质。
技术介绍
[0002]歌声转换系统是将一个人唱歌的声音转化成另一个人唱歌的声音,同时保持唱歌内容不变。目前采用基于自动编码器以达到无监督的歌声转换,但是现有的方法合成的歌声很容易跑调,不能够很好地学习精准的pitch(具体是指间距值)信息。
[0003]为解决上述问题,本专利技术亟需提供一种新的基于自监督模型的歌声转换方法。
技术实现思路
[0004]本专利技术提供一种基于自监督模型的歌声转换方法、装置、电子设备及计算机可读存储介质,其主要目的在于通过损失函数、重构损失函数、对抗损失函数以及最后损失对自监督模型训练,并通过训练好的自监督模型完成目标歌声的转换,从而解决目前转换歌声容易跑调等问题。
[0005]为实现上述目的,本专利技术提供的一种基于自监督模型的歌声转换方法,应用于电子设备,所述方法包括:
[0006 ...
【技术保护点】
【技术特征摘要】
1.一种基于自监督模型的歌声转换方法,应用于电子设备,其特征在于,所述方法包括:通过自监督模型的编码器对歌声语音进行编码处理,获取歌声嵌入;根据所述歌声嵌入分别构建歌手分类损失函数和回归损失函数;根据所述歌手分类损失函数和回归损失函数,构建对抗损失函数;根据所述对抗损失函数、重构损失函数,构建最终损失函数;通过所述最终损失函数对所述自监督模型进行迭代训练,当所述最终损失函数值收敛至预设范围,完成对所述自监督模型的训练;通过训练后的自监督模型对待转换歌声进行转换,获取目标歌声。2.如权利要求1所述的基于自监督模型的歌声转换方法,其特征在于,所述通过自监督模型的编码器对训练歌声进行编码处理,获取歌声嵌入,包括:将所述歌声语音输入到所述编码器;通过所述编码器对所述歌声语音进行卷积处理,获取所述歌声的局部特征向量;通过所述编码器对所述歌声的局部特征向量进行池化处理,获取所述歌声嵌入。3.如权利要求1所述的基于自监督模型的歌声转换方法,其特征在于,所述歌声嵌入包括真实歌手类别和真实pitch值,根据所述所述歌声嵌入构建歌手分类损失函数的过程包括:通过所述自监督模型的歌手分类器对所述歌声嵌入进行分类处理,获取预测歌手类别;根据所述真实歌手类别、所述预测歌手类别,构建用于训练所述歌手分类器的所述歌手分类损失函数。4.如权利要求3所述的基于自监督模型的歌声转换方法,其特征在于,通过所述歌手分类损失函数对所述歌手分类器进行迭代训练,当所述歌手分类损失函数值收敛至预设范围,完成对所述歌手分类器的训练;其中,所述歌手分类损失函数为:其中,L
s
表示歌手分类损失函数,L
ce
()表示交叉熵损失,E表示编码器;C
s
表示歌手分类器,s
j
表示歌手j的输入语音。5.如权利要求1所述的基于自监督模型的歌声转换方法,其特征在于,所述歌声嵌入包括真实歌手类别和真实pitch值,根据所述歌声嵌入构建回归损失函数的过程包括:通过所述自监督模型的pitch回归预测器对所述歌声嵌入进行回归预测,获取预测pitch值;根据所述真实pitch值、所述预测pitch值,构建用于训练所述pitch回归预测器的所述回归损失函数;其中,通过所述回归损失函数对所述pitch回归预测器进行迭代训练,当所述回归损失函数值收敛至预设范围,完成对所述pitch回归预测器的训练;其中,所述回归损失函数为:
其中,L
p
表示回归损失函数,L
mse
()表示均方根误差函数,C
p
表示回归预测器,P(s
j
)表示对s
j
获取的真实pitch值,s
j
表示歌...
【专利技术属性】
技术研发人员:张旭龙,王健宗,
申请(专利权)人:平安科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。