用于藏语数据增强的监督学习zs-TTS生成与质量评估系统技术方案

技术编号:43814977 阅读:30 留言:0更新日期:2024-12-27 13:29
本发明专利技术公开了一种用于藏语数据增强的监督学习zs‑TTS生成与质量评估系统,属于语音智能合成技术领域。本发明专利技术系统包括预处理模块、零样本文本到语音合成模块和合成语音质量评估模块;预处理模块对采集的藏语语音数据处理获取样本;零样本文本到语音合成模块使用监督学习的zs‑TTS模型生成藏语语音,在TTS模型基础上引入参考编码器,优化生成对抗网络的损失函数构成;合成语音质量评估模块对合成音频结合多个指标进行评分,并引入动态阈值机制以平衡样本质量和数量。本发明专利技术系统实现在极短时长输入样本的情况下快速学习说话人风格并生成高质量藏语语音样本的能力,为低资源语言的语音处理任务提供了一种有效的通用型数据增强方案。

【技术实现步骤摘要】

本专利技术属于语音智能合成,涉及藏语语音数据增强和语音生成技术,具体涉及一种使用基于监督学习的零样本文本到语音(zero-shot text-to-speech,zs-tts)方法生成藏语合成语音并经过筛选后用于藏语任务数据增强的系统。


技术介绍

1、近年来,随着深度学习技术的蓬勃发展,数据增强方法在语音信号处理领域中逐渐成为提高模型性能的重要手段。语音信号数据因其在不同应用场景中的多样性和复杂性,通常需要通过数据增强来提高模型的泛化能力和鲁棒性。常见的语音数据增强方法包括时间域操作、频域变换以及噪声混合等,这些技术能够有效地扩展训练数据集的多样性,进而提升模型在语音识别、说话人识别等任务中的表现。然而,语音信号的多样性和复杂结构也为数据增强带来了挑战。如何在保证语义一致的前提下,最大限度地利用增强方法丰富数据,是实现高精度语音模型的重要研究方向。

2、在语音数据增强领域,传统方法与新兴技术的结合为语音处理任务的提升奠定了基础。传统的语音数据增强方法主要包括时间域操作(如时间偏移和时间伸缩)、频域变换(如频率遮蔽和频率偏移)、噪声注入、音调和速本文档来自技高网...

【技术保护点】

1.一种用于藏语数据增强的监督学习zs-TTS生成与质量评估系统,其特征在于,包括预处理模块、零样本文本到语音合成模块和合成语音质量评估模块;zs-TTS表示零样本文本到语音;

2.根据权利要求1所述的系统,其特征在于,所述的预处理模块对藏语语音进行的预处理操作包括重采样、带通滤波、去除眼电干扰、清除不符合长度的音频,对藏语文本进行的预处理操作包括威利转写、文本清理、拼写校正、标准化专业术语,将预处理后的藏语语音和文本数据样本数据划分为训练集、验证集和测试集。

3.根据权利要求1所述的系统,其特征在于,所述的参考编码器包括卷积层和门控循环单元结构GRU层,将输入音...

【技术特征摘要】

1.一种用于藏语数据增强的监督学习zs-tts生成与质量评估系统,其特征在于,包括预处理模块、零样本文本到语音合成模块和合成语音质量评估模块;zs-tts表示零样本文本到语音;

2.根据权利要求1所述的系统,其特征在于,所述的预处理模块对藏语语音进行的预处理操作包括重采样、带通滤波、去除眼电干扰、清除不符合长度的音频,对藏语文本进行的预处理操作包括威利转写、文本清理、拼写校正、标准化专业术语,将预处理后的藏语语音和文本数据样本数据划分为训练集、验证集和测试集。

3.根据权利要求1所述的系统,其特征在于,所述的参考编码器包括卷积层和门控循环单元结构gru层,将输入音频的梅尔频谱先经过6层二维卷积处理,提取不同层次的特征,再将提取的特征输入gru层提取音频时序信息,最终输出一个语音风格特征。

4.根据权利要求1所述的系统,其特征在于,所述的零样本文本到语音合成模块中,预先使用训练样本集训练生成对抗网络,将训练样本输入零样本文本到语音合成模块,由解码器生成目标音频波形,多周期鉴别器对生成的目...

【专利技术属性】
技术研发人员:邵恒益李雨泽李蕾
申请(专利权)人:北京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1