一种基于自回归模型的语音编辑和合成方法及系统技术方案

技术编号：44897189 阅读：18 留言：0更新日期：2025-04-08 00:37

本发明专利技术提出了一种基于自回归模型的语音编辑和合成方法及系统，用于拼接真人音频和合成音频，属于人工智能技术领域。将真人音频信号离散化成音频token和文本token，训练自回归模型；使用自回归模型生成的隐藏层状态训练声码器，使得声码器能够根据隐藏层状态还原音频；从待编辑的真人音频中提取音色特征，并转换为音频token和文本token，将真人音频的文本token之后拼接待合成音频的文本token；将音色特征、文本token、音频token拼接起来输入自回归模型，预测隐藏层状态；根据真人音频和合成音频的先后顺序预处理音频的隐藏层状态，还原音频。本发明专利技术解决了真人音频和合成音频拼接突兀的问题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于人工智能，尤其涉及一种基于自回归模型的语音编辑和合成方法及系统。

技术介绍

1、人工智能技术日益成熟，在机器人客服场景中，录音师录制话术音频的步骤可以被语音合成技术代替，降低了人工成本。现有技术中，语音合成的音频在情绪表达、语气、节奏等方面有时不如真人录音，这时通常会采用真人录音加语音合成拼接的方案。

2、现有的真人录音加语音合成拼接方案存在以下缺点：

3、1、真人录音每次语气和节奏都会有差异，而语音合成的音频语气和节奏是相对固定的。把真人录音和合成音拼接时，两部分音频在音色和节奏上会有明显的差异。

4、2、真人录音每次距离麦克风的距离、录音所处的环境、混响等都会有差异，而语音合成的音频在声场上是相对固定的。这就导致真人录音和合成音拼接时，在拼接处会感觉到明显的突兀。

5、如何在使得真人录音加语音合成拼接的结果更加真实，是本领域不断研究的问题。

技术实现思路

1、鉴于此，本专利技术提出了一种基于自回归模型的语音编辑和合成方法及系...

【技术保护点】

1.一种基于自回归模型的语音编辑和合成方法，用于拼接真人音频和合成音频，其特征在于，包括：

2.根据权利要求1所述的基于自回归模型的语音编辑和合成方法，其特征在于，利用dVAE模型中的编码器将真人音频信号离散化成音频token。

3.根据权利要求2所述的基于自回归模型的语音编辑和合成方法，其特征在于，所述的dVAE模型的训练过程包括：

4.根据权利要求1所述的基于自回归模型的语音编辑和合成方法，其特征在于，所述的文本token的生成方法包括：

5.根据权利要求1所述的基于自回归模型的语音编辑和合成方法，其特征在于，所述的自回归模型的输入是由...

【技术特征摘要】

1.一种基于自回归模型的语音编辑和合成方法，用于拼接真人音频和合成音频，其特征在于，包括：

2.根据权利要求1所述的基于自回归模型的语音编辑和合成方法，其特征在于，利用dvae模型中的编码器将真人音频信号离散化成音频token。

3.根据权利要求2所述的基于自回归模型的语音编辑和合成方法，其特征在于，所述的dvae模型的训练过程包括：

4.根据权利要求1所述的基于自回归模型的语音编辑和合成方法，其特征在于，所述的文本token的生成方法包括：

5.根据权利要求1所述的基于自回归模型的语音编辑和合成方法，其特征在于，所述的自回归模型的输入是由音色特征、文本token、音频token的拼接结果，所述文本token和音频token之间插入开始标记的token；自回归模型根据给定的上下文逐步预测对应每一个文本token的音频...

【专利技术属性】
技术研发人员：李立峰，
申请(专利权)人：杭州一知智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人