语音合成方法、装置、设备和存储介质制造方法及图纸

技术编号：29839354 阅读：19 留言：0更新日期：2021-08-27 14:29

本发明专利技术实施例提供一种语音合成方法、装置、设备和存储介质，该方法包括：响应于用户触发的交互行为，获取与该交互行为对应的文本内容和目标用户的标识信息；确定文本内容对应的语言学特征；将语言学特征和目标用户的标识信息输入到语音合成模型中，以通过语音合成模型获得目标用户与文本内容对应的声学特征；根据该声学特征生成目标用户与该文本内容对应的语音信号并输出。通过该方案，可以实现以特定某人的声音与某用户进行个性化的语音交互的目的。

全部详细技术资料下载

【技术实现步骤摘要】
语音合成方法、装置、设备和存储介质
本专利技术涉及人工智能
，尤其涉及一种语音合成方法、装置、设备和存储介质。
技术介绍
随着人工智能技术的发展，各种支持语音交互的应用程序层出不穷，比如各种问答机器人、智能音箱，等等。以问答机器人为例，响应于用户的问题语音，问答机器人可以向用户输出应答语音。目前，问答机器人输出的各种应答语音往往都是具有统一的声学特征的，互动性较差。
技术实现思路
本专利技术实施例提供一种语音合成方法、装置、设备和存储介质，可以实现个性化的语音交互目的。第一方面，本专利技术实施例提供一种语音合成方法，该方法包括：响应于用户触发的交互行为，获取与所述交互行为对应的文本内容和目标用户的标识信息；确定所述文本内容对应的语言学特征；将所述语言学特征和所述目标用户的标识信息输入到语音合成模型中，以通过所述语音合成模型获得所述目标用户与所述文本内容对应的声学特征；根据所述声学特征，生成与所述文本内容对应的语音信号，以输出所述语音信号。第二方面，本专利技术实施例提供一种语音合成装置，该装置包括：第一获取模块，用于响应于用户触发的交互行为，获取与所述交互行为对应的文本内容和目标用户的标识信息；确定模块，用于确定所述文本内容对应的语言学特征；第二获取模块，用于将所述语言学特征和所述目标用户的标识信息输入到语音合成模型中，以通过所述语音合成模型获得所述目标用户与所述文本内容对应的声学特征；生成模块，用于根据所...

【技术保护点】
1.一种语音合成方法，其特征在于，包括：/n响应于用户触发的交互行为，获取与所述交互行为对应的文本内容和目标用户的标识信息；/n确定所述文本内容对应的语言学特征；/n将所述语言学特征和所述目标用户的标识信息输入到语音合成模型中，以通过所述语音合成模型获得所述目标用户与所述文本内容对应的声学特征；/n根据所述声学特征，生成与所述文本内容对应的语音信号，以输出所述语音信号。/n

【技术特征摘要】
1.一种语音合成方法，其特征在于，包括：
响应于用户触发的交互行为，获取与所述交互行为对应的文本内容和目标用户的标识信息；
确定所述文本内容对应的语言学特征；
将所述语言学特征和所述目标用户的标识信息输入到语音合成模型中，以通过所述语音合成模型获得所述目标用户与所述文本内容对应的声学特征；
根据所述声学特征，生成与所述文本内容对应的语音信号，以输出所述语音信号。

2.根据权利要求1所述的方法，其特征在于，所述语音合成模型中包括第一编码器和解码器；
所述通过所述语音合成模型获得所述目标用户与所述文本内容对应的声学特征，包括：
通过所述第一编码器对所述语言学特征进行编码，以得到与所述语言学特征对应的第一编码向量；
确定与所述目标用户的标识信息对应的第二编码向量；
拼接所述第一编码向量与所述第二编码向量；
通过所述解码器对拼接后的编码向量进行解码，以得到所述声学特征。

3.根据权利要求2所述的方法，其特征在于，所述语音合成模型中还包括第二编码器，所述第二编码器与所述第一编码器共用所述解码器；
所述方法还包括：
获取与所述目标用户对应的语音信号样本，所述语音信号样本不对应于所述文本内容；
确定所述语音信号样本对应的音素后验概率特征和声学特征；
以所述语音信号样本对应的声学特征作为监督信息，将所述语音信号样本对应的音素后验概率特征和所述目标用户的标识信息输入到语音合成模型中，以训练所述第二解码器和所述解码器。

4.根据权利要求3所述的方法，其特征在于，所述将所述语音信号样本对应的音素后验概率特征和所述目标用户的标识信息输入到语音合成模型中，以训练所述第二解码器和所述解码器，包括：
通过所述第二编码器对所述音素后验概率特征进行编码，以得到与所述音素后验概率特征对应的第三编码向量；
拼接对应于所述目标用户的标识信息的所述第二编码向量和所述第三编码向量；
通过所述解码器对拼接后的编码向量进行解码，以得到所述解码器输出的声学特征。

5.根据权利要求3所述的方法，其特征在于，所述获取与所述目标用户对应的语音信号样本，包括：
获取多个用户对应的标识信息和语音信号样本，所述多个用户中包括所述目标用户，所述多个用户的语音信号样本用于训练所述第二解码器和所述解码器；
从所述多个用户对应的语音信号样本中获取所述目标用户对应的语音信号样本。

6.根据权利要求3所述的方法，其特征在于，所述确定所述语音信号样本对应的音素后验概率特征和声学特征，包括：
对所述语音信号样本进行分帧处理，以得到多帧语音信号；
提取所述多帧语音信号各自对应的声学特征；
将所述多帧语音信号各自对应的声学特征输入到声学模型中，以通过所述声学...

【专利技术属性】
技术研发人员：黄智颖，雷鸣，
申请(专利权)人：阿里巴巴集团控股有限公司，
类型：发明
国别省市：开曼群岛;KY

全部详细技术资料下载我是这个专利的主人