实时语音转多说话人语音的变声方法、装置及相关组件制造方法及图纸

技术编号:41429300 阅读:13 留言:0更新日期:2024-05-28 20:26
本发明专利技术实施例提供了一种实时语音转多说话人语音的变声方法、装置及相关组件。该变声方法通过对用户音频进行特征提取、特征替换、搜索组合、编码、嵌入操作以及解码处理得到音频波形数据,使用户实现实时语音转多说话人语音的变声功能。此外,用户还可以根据音频波形数据的变声结果调节特征索引程度参数,使变声结果与模板人物更相似,而且通过声码器生成音频波形数据,无机械声和噪声。

【技术实现步骤摘要】

本专利技术涉及音频处理,尤其涉及实时语音转多说话人语音的变声方法、装置及相关组件


技术介绍

1、实时变声技术是一种将用户音频进行实时处理,使其听起来像是来自不同声音特征的技术,实时变声需要在短时间内完成复杂的处理和转换操作,而且声音具有复杂的时域和频域特征,在处理过程中,需要准确地捕捉和模仿这些特征,并且还需要对目标人物的独特语音特征进行建模和学习,以保持模仿结果的准确性和一致性。

2、现有的实时变声技术通常是利用深度学习和神经网络等技术,然后通过训练模型来实现高质量的声音模仿,这种方法通过输入目标人物的语音样本和文本,生成与目标人物相似的语音,但是这种方法大多存在以下问题:1、训练模型太大,无法在低端显卡上做到实时变声;2、通过ppg模型或wav2vec2模型提取相关特征,然而这种模型提取的特征要么没有去除音色特征,要么只保留文本特征而没有韵律信息,从而导致最终生成的音色转换失败或带有明显机械声,缺乏情感。


技术实现思路

1、本专利技术实施例提供了实时语音转多说话人语音的变声方法、装置及相关组本文档来自技高网...

【技术保护点】

1.一种实时语音转多说话人语音的变声方法,其特征在于,包括:

2.根据权利要求1所述的变声方法,其特征在于,所述提取用户音频的第一内容特征和音高特征,包括:

3.根据权利要求2所述的变声方法,其特征在于,所述内容编码器为HuBERT预训练模型,其中,所述HuBERT预训练模型按如下方式得到:去掉原始预训练模型的最后一层的全连接层。

4.根据权利要求1所述的变声方法,其特征在于,所述使用faiss库对所述训练集特征进行搜索和组合,得到第二内容特征,包括:

5.根据权利要求4所述的变声方法,其特征在于,所述利用faiss库的搜索函数对所述第一内...

【技术特征摘要】

1.一种实时语音转多说话人语音的变声方法,其特征在于,包括:

2.根据权利要求1所述的变声方法,其特征在于,所述提取用户音频的第一内容特征和音高特征,包括:

3.根据权利要求2所述的变声方法,其特征在于,所述内容编码器为hubert预训练模型,其中,所述hubert预训练模型按如下方式得到:去掉原始预训练模型的最后一层的全连接层。

4.根据权利要求1所述的变声方法,其特征在于,所述使用faiss库对所述训练集特征进行搜索和组合,得到第二内容特征,包括:

5.根据权利要求4所述的变声方法,其特征在于,所述利用faiss库的搜索函数对所述第一内容特征进行近邻搜索,得到相似度得分数组和索引数组的步骤之后,还包括:

6.根据权利要求1所述的变声方法,其特征...

【专利技术属性】
技术研发人员:姚振财
申请(专利权)人:深圳牛学长科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1