针对病理嗓音的语音转换方法、装置和存储介质制造方法及图纸

技术编号：35499198 阅读：40 留言：0更新日期：2022-11-05 17:03

本申请公开了一种针对病理嗓音的语音转换方法、装置和存储介质，涉及声音处理技术领域，所述方法包括：获取训练样本；对于每个样本病理嗓音，获取所述样本病理嗓音的样本梅尔谱图；根据各个样本梅尔谱图获取所述样本病理嗓音的样本基频；获取风格向量；将各个样本梅尔谱图、各个样本基频以及所述风格向量输入至生成器，通过所述生成器输出转换后的各个样本梅尔谱图；根据判别器判别所述生成器生成的转换后的各个样本梅尔谱图的真伪；根据所述判别器的各个判别结果训练所述生成器和所述判别器，训练后的所述生成器用于对目标病理嗓音进行嗓音转换。解决了现有技术中病理嗓音的语音质量较差，无法被理解的问题。无法被理解的问题。无法被理解的问题。

全部详细技术资料下载

【技术实现步骤摘要】
针对病理嗓音的语音转换方法、装置和存储介质

[0001]本专利技术涉及一种针对病理嗓音的语音转换方法、装置和存储介质，属于声音处理

技术介绍

[0002]作为语言的载体，语音是现实生活中传递信息的重要信号。包括语音相关专业人士、老年人、吸烟者、呼吸系统疾病患者、鼻部疾病患者、咽喉疾病患者等在内的部分人群存在不同程度的语音困难。通常情况下，患者发出的病理嗓音难以被普通人理解。
[0003]现有技术中，一些病理性声音患者可以通过手术改善其语音质量，然后手术可能会给患者造成一定的伤害。例如，在喉切除术的情况下，该过程不仅改变了患者的生活方式，而且还导致声带的切除和语言能力的丧失。

技术实现思路

[0004]本专利技术的目的在于提供一种针对病理嗓音的语音转换方法、装置和存储介质，用于解决现有技术中存在的问题。
[0005]为达到上述目的，本专利技术提供如下技术方案：根据第一方面，本专利技术实施例提供了一种针对病理嗓音的语音转换方法，所述方法包括：获取训练样本，所述训练样本中包括样本病理嗓音以及每个样本病理嗓音对应的正常嗓音；对于每个样本病理嗓音，获取所述样本病理嗓音的样本梅尔谱图；根据各个样本梅尔谱图获取所述样本病理嗓音的样本基频；获取风格向量；将各个样本梅尔谱图、各个样本基频以及所述风格向量输入至生成器，通过所述生成器输出转换后的各个样本梅尔谱图；根据判别器判别所述生成器生成的转换后的各个样本梅尔谱图的真伪；根据所述判别器的各个判别结果训练所述生成器和所述判别器，训练后的所述生成器...

【技术保护点】

【技术特征摘要】
1.一种针对病理嗓音的语音转换方法，其特征在于，所述方法包括：获取训练样本，所述训练样本中包括样本病理嗓音以及每个样本病理嗓音对应的正常嗓音；对于每个样本病理嗓音，获取所述样本病理嗓音的样本梅尔谱图；根据各个样本梅尔谱图获取所述样本病理嗓音的样本基频；获取风格向量；将各个样本梅尔谱图、各个样本基频以及所述风格向量输入至生成器，通过所述生成器输出转换后的各个样本梅尔谱图；根据判别器判别所述生成器生成的转换后的各个样本梅尔谱图的真伪；根据所述判别器的各个判别结果训练所述生成器和所述判别器，训练后的所述生成器用于对目标病理嗓音进行嗓音转换。2.根据权利要求1所述的方法，其特征在于，所述根据各个样本梅尔谱图获取所述样本病理嗓音的样本基频，包括：对于每个样本梅尔谱图，将所述样本梅尔谱图输入至F0提取网络，通过所述F0提取网络提取所述样本病理嗓音的样本基频。3.根据权利要求1所述的方法，其特征在于，所述获取风格向量，包括：获取随机采样的高斯分布向量；将所述高斯分布向量输入至映射网络，通过所述映射网络生成所述风格向量。4.根据权利要求1所述的方法，其特征在于，所述获取风格向量，包括：获取参考梅尔谱图；将所述参考梅尔谱图输入至说话人编码器，通过所述说话人编码器生成所述风格向量。5.根据权利要求1至4任一所述的方法，其特征在于，所述根据所述判别器的各个判别结果训练所述生成器，包括：获取第一损失因子，所述第一损失因子包括：对抗损失因子、对抗源损失因子、风格重构损失因子、风格多样化损失因子、F0一致性损失因子、语音一致性损失因子、范数...

【专利技术属性】
技术研发人员：吴迪，楚明航，杨梦涛，马瑶瑶，王靖，徐超，范智玮，张晓俊，陶智，
申请(专利权)人：苏州大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人