【技术实现步骤摘要】
本专利技术涉及音频处理,尤其涉及实时语音转多说话人语音的变声方法、装置及相关组件。
技术介绍
1、实时变声技术是一种将用户音频进行实时处理,使其听起来像是来自不同声音特征的技术,实时变声需要在短时间内完成复杂的处理和转换操作,而且声音具有复杂的时域和频域特征,在处理过程中,需要准确地捕捉和模仿这些特征,并且还需要对目标人物的独特语音特征进行建模和学习,以保持模仿结果的准确性和一致性。
2、现有的实时变声技术通常是利用深度学习和神经网络等技术,然后通过训练模型来实现高质量的声音模仿,这种方法通过输入目标人物的语音样本和文本,生成与目标人物相似的语音,但是这种方法大多存在以下问题:1、训练模型太大,无法在低端显卡上做到实时变声;2、通过ppg模型或wav2vec2模型提取相关特征,然而这种模型提取的特征要么没有去除音色特征,要么只保留文本特征而没有韵律信息,从而导致最终生成的音色转换失败或带有明显机械声,缺乏情感。
技术实现思路
1、本专利技术实施例提供了实时语音转多说话人语音的变
...【技术保护点】
1.一种实时语音转多说话人语音的变声方法,其特征在于,包括:
2.根据权利要求1所述的变声方法,其特征在于,所述提取用户音频的第一内容特征和音高特征,包括:
3.根据权利要求2所述的变声方法,其特征在于,所述内容编码器为HuBERT预训练模型,其中,所述HuBERT预训练模型按如下方式得到:去掉原始预训练模型的最后一层的全连接层。
4.根据权利要求1所述的变声方法,其特征在于,所述使用faiss库对所述训练集特征进行搜索和组合,得到第二内容特征,包括:
5.根据权利要求4所述的变声方法,其特征在于,所述利用faiss库的
...【技术特征摘要】
1.一种实时语音转多说话人语音的变声方法,其特征在于,包括:
2.根据权利要求1所述的变声方法,其特征在于,所述提取用户音频的第一内容特征和音高特征,包括:
3.根据权利要求2所述的变声方法,其特征在于,所述内容编码器为hubert预训练模型,其中,所述hubert预训练模型按如下方式得到:去掉原始预训练模型的最后一层的全连接层。
4.根据权利要求1所述的变声方法,其特征在于,所述使用faiss库对所述训练集特征进行搜索和组合,得到第二内容特征,包括:
5.根据权利要求4所述的变声方法,其特征在于,所述利用faiss库的搜索函数对所述第一内容特征进行近邻搜索,得到相似度得分数组和索引数组的步骤之后,还包括:
6.根据权利要求1所述的变声方法,其特征...
【专利技术属性】
技术研发人员:姚振财,
申请(专利权)人:深圳牛学长科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。