当前位置: 首页 > 专利查询>辽宁大学专利>正文

一种基于StarGAN情感架构的语音情感转换方法技术

技术编号:42639306 阅读:40 留言:0更新日期:2024-09-06 01:36
本发明专利技术涉及一种基于StarGAN情感架构的语音情感转换方法,包括如下步骤:步骤1,构建SrarGAN语音情感转换模型,步骤2,StarGAN语音情感转换模型的训练;步骤3:提取特征、设定目标风格编码,使用步骤2训练好的模型实现语音风格转换。该方法通过设计StarGAN损失函数生成不同情感语音不同方法,旨在解决情感语音生成中不流畅、不自然的问题。

【技术实现步骤摘要】

本专利技术涉及一种基于stargan情感架构的语音情感转换方法,属于深度学习、语音处理。


技术介绍

1、随着人工智能技术的飞速发展,人机交互的方式正在经历着深刻的变革。在这一变革中,语音作为一种直观、自然的交流方式,其情感表达的重要性愈发受到关注。语音情感转换技术,旨在将源语音中的情感转换为另一种情感,同时保持语音内容不变,这一技术对于增强人机交互的智能化水平、提升用户体验具有重要意义。

2、在语音情感转换技术的研究过程中,我们面临着多重挑战。首先,情感表达具有高度的复杂性和多样性,不同人在表达同一情感时可能会采用不同的语音特征,这为情感转换带来了极大的困难。其次,语音本身包含了丰富的声学特征,如音调、音量、语速等,这些特征在情感转换过程中需要得到妥善处理,以确保转换后的语音在保持内容一致性的同时,也具备相应的情感表达。最后,语音情感转换涉及到信息的传递和转换,如何在转换过程中减少信息损失,保持语音的清晰度和可懂度,也是我们需要解决的重要问题。


技术实现思路

1、为了解决上述存在的技术问题,本专利本文档来自技高网...

【技术保护点】

1.一种基于StarGAN情感架构的语音情感转换方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的一种基于StarGAN情感架构的语音情感转换方法,其特征在于,所述步骤2.1:进行语音特征及提取过程如下:

3.根据权利要求1所述的一种基于StarGAN情感架构的语音情感转换方法,其特征在于,所述语音生成器可以进行定向语音风格转换和非定向语音风格转换;其中,非定向语音风格转换是将指定源域的语音样本转换为其他任何域的风格;定向语音风格转换是指将源域的语音样本转换为指定目标域的风格;

4.根据权利要求1所述的一种基于StarGAN情感架构的语音情感转...

【技术特征摘要】

1.一种基于stargan情感架构的语音情感转换方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的一种基于stargan情感架构的语音情感转换方法,其特征在于,所述步骤2.1:进行语音特征及提取过程如下:

3.根据权利要求1所述的一种基于stargan情感架构的语音情感转换方法,其特征在于,所述语音生成器可以进行定向语音风格转换和非定向语音风格转换;其中,非定向语音风格转换是将指定源域的语音样本转换为其他任何域的风格;定向语音风格转换是指将源域的语音样本转换为指定目标域的风格;

4.根据权利要求1所述的一种基于stargan情感架构的语音情感转换方法,其特征在于,所述语音风格编码器步骤中通过以下判别损...

【专利技术属性】
技术研发人员:周翰逊张硕胡雨丰张昉翟天云王妍郭薇邰滢滢
申请(专利权)人:辽宁大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1