【技术实现步骤摘要】
一种音频合成方法、装置、设备和存储介质
[0001]本申请涉及计算机领域,具体涉及一种音频合成方法
、
装置
、
设备和存储介质
。
技术介绍
[0002]人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术
。
人工智能基础技术一般包括如传感器
、
专用人工智能芯片
、
云计算
、
分布式存储
、
大数据处理技术
、
操作
/
交互系统
、
机电一体化等技术
。
人工智能软件技术主要包括计算机视觉技术
、
语音处理技术
、
自然语言处理技术以及机器学习
/
深度学习等几大方向
。
[0003]其中,语音技术
(Speech Technology)
的关键技术有自动语音识别技术 (ASR)
和语音合成技术
(TTS) >以及声纹识别技术<本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.
一种音频合成方法,其特征在于,包括:获取预设文本的标准音标文本,所述标准音标文本用于表征所述预设文本的标准读音;获取目标口音特征向量,所述目标口音特征向量用于表征目标口音;获取目标身份标识,所述目标身份标识用于表征目标音色;通过音频合成模型,根据所述标准音标文本
、
所述目标口音特征向量以及所述目标身份标识,生成目标声音特征参数;将所述目标声音特征参数转换成所述预设文本对应的目标音频,所述目标音频携带有所述目标口音特征向量对应的目标口音和所述目标身份标识对应的所述目标音色
。2.
根据权利要求1所述的一种音频合成方法,其特征在于,所述获取目标口音特征向量,包括:接收目标用户的用户音频;提取所述用户音频对应的用户声音特征参数;通过音频合成模型中的第一口音特征提取网络,根据所述用户声音特征参数生成所述目标口音特征向量
。3.
根据权利要求1所述的一种音频合成方法,其特征在于,所述获取目标口音特征向量,包括:获取口音音标文本,所述口音音标文本用于表征所述预设文本的所述目标口音的读音;通过音频合成模型中的第二口音特征提取网络,根据所述口音音标文本生成所述目标口音特征向量
。4.
根据权利要求1所述的一种音频合成方法,其特征在于,所述音频合成模型包括编码器
、
嵌入网络以及解码器;所述通过音频合成模型,根据所述标准音标文本
、
所述目标口音特征向量以及所述身份标识,生成目标声音特征参数,包括:通过所述编码器,根据所述标准音标文本生成输出向量;通过所述嵌入网络,根据所述目标身份标识生成身份标识向量;计算所述目标口音特征向量
、
所述输出向量以及所述身份标识向量的加和,获取加和结果;通过所述解码器,根据所述加和结果生成所述目标声音特征参数
。5.
根据权利要求1所述的一种音频合成方法,其特征在于,在所述获取预设文本的标准音标文本之前,所述方法还包括:获取训练口音音标文本集,所述训练口音音标文本集包括第一数量个训练口音音标文本,所述第一数量个训练口音音标文本由至少两个训练用户共同产生,每个所述训练口音音标文本用于表征其所属的训练用户的带口音读音;获取训练标准音标文本集,所述训练标准音标文本集包括所述第一数量个训练标准音标文本,所述训练标准音标文本与所述训练口音音标文本一一对应,且每个所述训练标准音标文本用于表征所述带口音读音对应的标准读音;获取所述至少两个训练用户中每个训练用户对应的身份标识;
获取所述第一数量个训练口音音标文本对应的训练音频,并基于所述训练音频获取训练声音特征参数;根据所述训练口音音标文本集
、
所述训练标准音标文本集
、
至少两个所述身份标识以及所述训练声音特征参数对初始音频合成模型进行训练,得到音频合成模型
。6.
根据权利要求5所述的一种音频合成方法,其特征在于,所述初始音频合成模型包括初始第一口音特征提取网络
、
...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。