【技术实现步骤摘要】
一种语音转换方法、系统及存储介质
[0001]本申请涉及语音转换
,尤其涉及一种语音转换方法
、
系统及存储介质
。
技术介绍
[0002]语音转换技术是指在不改变语音内容的情况下,将源人物语音转换成目标人物语音的技术,这种技术涉及到对语音信号的参数进行分析和修改,以实现语音的转换
。
语音转换技术广泛应用于虚拟形象
、
数字人或真人语音等场景下,用户可以选择对应的目标人物语音,并在上述场景中完成对源说话人的语音转换,提高音频的互动性
。
[0003]待转换音频是包括源人物语音的音频,除了人声外,待转换音频还可能包括背景噪音
。
因此,在语音转换的过程中,需要结合降噪增益技术对待转换音频进行处理,从而得到纯净的源人物语音,进而对源人物语音进行语音转换
。
[0004]但是,当待转换音频中包括多个人物语音的时候,其他人物语音与源人物语音相互交错,在语音转换的过程中,会将其他人物语音和源人物语音同时转换为目标人物语音,从 ...
【技术保护点】
【技术特征摘要】
1.
一种语音转换方法,其特征在于,包括:获取待转换音频;使用端点检测技术从所述待转换音频中分离人物语音和背景音;识别所述待转换音频中的人物语音;如果所述待转换音频中识别出至少两个不同人物发出的人物语音,则通过声纹识别模型从所述人物语音识别出源人物语音,所述声纹识别模型包括参照声纹,所述源人物语音是语音声纹与参照声纹的声纹相似度大于或等于相似度阈值的人物语音;通过语音转换模型将所述源人物语音转换为目标人物语音;将所述背景音
、
剩余的人物语音和所述目标人物语音进行拼接,得到转换后的音频
。2.
根据权利要求1所述的语音转换方法,其特征在于,所述人物语音包括至少一个人物语音片段,所述使用端点检测技术从所述待转换音频中分离人物语音和背景音步骤,包括:通过端点检测技术检测所述待转换音频中各个音频片段的音频活性值;根据所述音频活性值从所述待转换音频中分离出人物语音片段,所述人物语音片段是音频活性值大于活性值阈值的语音片段;如果所述人物语音片段的数量为一个,则根据所述人物语音片段输出所述人物语音;如果所述人物语音片段的数量为多个,则拼接所述人物语音片段,得到所述人物语音;根据待转换音频中剩余的音频生成背景音
。3.
根据权利要求1所述的语音转换方法,其特征在于,所述通过声纹识别模型从所述人物语音识别出源人物语音的步骤前,还包括:获取源人物说出的第一训练音频;通过端点检测技术从所述第一训练音频中分离出源人物语音片段;通过所述源人物语音片段训练所述声纹识别模型
。4.
根据权利要求1所述的语音转换方法,其特征在于,所述通过语音转换模型将所述源人物语音转换为目标人物语音的步骤前,还包括:获取目标人物说出的第二训练音频;通过端点检测技术从所述第二训练音频中分离出目标人物语音片段;通过所述目标人物语音片段训练所述语音转换模型
。5.
根据权利要求1所述的语音转换方法,其特征在于,所述通过声纹识别模型从所述人物语音识别出源人物语音的步骤,包括:获取所述人物语音的语音声纹;将所述语音声纹输入至所述声纹识别模型,以通过所述声纹识别模型计算所述语音声纹和所述声纹识别模型的参照声纹的声纹相似度;如果所述声纹相似度大于或等于相似度阈值,则将所述人物语音标记...
【专利技术属性】
技术研发人员:张朕,侯杰,
申请(专利权)人:苏州君林智能科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。