语音转换方法、装置、设备、存储介质和程序产品制造方法及图纸

技术编号：41494769 阅读：22 留言：0更新日期：2024-05-30 14:39

本公开提供了一种语音转换方法、装置、设备、存储介质和程序产品，可以应用于语音合成技术领域和金融领域。该方法包括：获取待转换文本；将待转换文本输入至上下文融合模型，输出包含有上下文信息的目标编码向量；利用语音风格处理模型处理目标编码向量，得到嵌入风格向量，其中，目标语音转换模型包括上下文融合模型和语音风格处理模型；根据目标编码向量和嵌入风格向量，生成带有语音风格的目标输出语音，其中，语音风格表征目标输出语音的情感变化特征。

全部详细技术资料下载

【技术实现步骤摘要】

本公开涉及语音合成和金融领域，更具体地涉及一种语音转换方法、装置、设备、存储介质和程序产品。

技术介绍

1、语音合成技术发展迅速，广泛应用于手机导航、电话机器人等场景，是语音交互的重要模块。人类语音中包含了大量文本之外的信息，如韵律、情感、风格等，语音合成结果在清晰、正确表达出文字信息的同时，表达出文字所代表的情感也是提高人机交互体验的重要指标。

2、但现有的语音合成技术，难以满足用户需要的情感。无监督方法相对来说缺乏可解释性和可控性，而半监督情绪控制方法对数据依赖程度高，需要额外的注释，缺乏可解释行和可控性，实用性较差，在表达性语音合成过程中没有实现风格控制且难以保持音质和音色的稳定。

技术实现思路

1、鉴于上述问题，本公开提供了一种语音转换方法、装置、设备、存储介质和程序产品

2、根据本公开的第一个方面，提供了一种语音转换方法，包括：获取待转换文本；将待转换文本输入至上下文融合模型，输出包含有上下文信息的目标编码向量；利用语音风格处理模型处理目标编码向量，得到嵌...

【技术保护点】

1.一种语音转换方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，将所述待转换文本输入至上下文融合模型，输出包含有上下文信息的目标编码向量，包括：

3.根据权利要求1所述的方法，其特征在于，利用语音风格处理模型处理所述目标编码向量，得到嵌入风格向量，包括：

4.根据权利要求3所述的方法，其特征在于，利用时长预测模块处理所述目标编码向量，得到第一语音向量，包括：

5.根据权利要求3或4所述的方法，其特征在于，利用音高预测模块处理所述第一语音向量，得到第二语音向量，包括：

6.根据权利要求3所述的方法，其特...

【技术特征摘要】

1.一种语音转换方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，将所述待转换文本输入至上下文融合模型，输出包含有上下文信息的目标编码向量，包括：

3.根据权利要求1所述的方法，其特征在于，利用语音风格处理模型处理所述目标编码向量，得到嵌入风格向量，包括：

4.根据权利要求3所述的方法，其特征在于，利用时长预测模块处理所述目标编码向量，得到第一语音向量，包括：

5.根据权利要求3或4所述的方法，其特征在于，利用音高预测模块处理所述第一语音向量，得到第二语音向量，包括：

6.根据权利要求3所述的方法，其特征在于，利用解码器对所述第一语音向量、所述第二语音向量和嵌入向量进行归一化处理...

【专利技术属性】
技术研发人员：杨卓勋，施耀一，张赵晨子，
申请(专利权)人：中国工商银行股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人