【技术实现步骤摘要】
本专利技术属于人工智能,尤其涉及一种基于自回归模型的语音编辑和合成方法及系统。
技术介绍
1、人工智能技术日益成熟,在机器人客服场景中,录音师录制话术音频的步骤可以被语音合成技术代替,降低了人工成本。现有技术中,语音合成的音频在情绪表达、语气、节奏等方面有时不如真人录音,这时通常会采用真人录音加语音合成拼接的方案。
2、现有的真人录音加语音合成拼接方案存在以下缺点:
3、1、真人录音每次语气和节奏都会有差异,而语音合成的音频语气和节奏是相对固定的。把真人录音和合成音拼接时,两部分音频在音色和节奏上会有明显的差异。
4、2、真人录音每次距离麦克风的距离、录音所处的环境、混响等都会有差异,而语音合成的音频在声场上是相对固定的。这就导致真人录音和合成音拼接时,在拼接处会感觉到明显的突兀。
5、如何在使得真人录音加语音合成拼接的结果更加真实,是本领域不断研究的问题。
技术实现思路
1、鉴于此,本专利技术提出了一种基于自回归模型的语音编辑和合成方法及系
...【技术保护点】
1.一种基于自回归模型的语音编辑和合成方法,用于拼接真人音频和合成音频,其特征在于,包括:
2.根据权利要求1所述的基于自回归模型的语音编辑和合成方法,其特征在于,利用dVAE模型中的编码器将真人音频信号离散化成音频token。
3.根据权利要求2所述的基于自回归模型的语音编辑和合成方法,其特征在于,所述的dVAE模型的训练过程包括:
4.根据权利要求1所述的基于自回归模型的语音编辑和合成方法,其特征在于,所述的文本token的生成方法包括:
5.根据权利要求1所述的基于自回归模型的语音编辑和合成方法,其特征在于,所述的
...【技术特征摘要】
1.一种基于自回归模型的语音编辑和合成方法,用于拼接真人音频和合成音频,其特征在于,包括:
2.根据权利要求1所述的基于自回归模型的语音编辑和合成方法,其特征在于,利用dvae模型中的编码器将真人音频信号离散化成音频token。
3.根据权利要求2所述的基于自回归模型的语音编辑和合成方法,其特征在于,所述的dvae模型的训练过程包括:
4.根据权利要求1所述的基于自回归模型的语音编辑和合成方法,其特征在于,所述的文本token的生成方法包括:
5.根据权利要求1所述的基于自回归模型的语音编辑和合成方法,其特征在于,所述的自回归模型的输入是由音色特征、文本token、音频token的拼接结果,所述文本token和音频token之间插入开始标记的token;自回归模型根据给定的上下文逐步预测对应每一个文本token的音频...
【专利技术属性】
技术研发人员:李立峰,
申请(专利权)人:杭州一知智能科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。