基于自监督学习和互信息解耦技术的语音合成方法技术

技术编号：36254584 阅读：74 留言：0更新日期：2023-01-07 09:49

本发明专利技术公开基于自监督学习和互信息解耦技术的语音合成方法，主要包括数据预处理；采用HUBERT和wav2vec模型作为预训练的大模型，并采用大量的无标签方式对齐进行训练；设计说话人分类和风格分类两个任务作为下游任务，固定训练模型的权重参数，用于得到任务相关的特征表示；利用互信息对T

全部详细技术资料下载

【技术实现步骤摘要】
基于自监督学习和互信息解耦技术的语音合成方法

[0001]本专利技术是语音合成领域，涉及基于自监督学习和互信息解耦技术的语音合成方法，具体涉及到利用自监督预训练的方法对多话者和多风格语音合成系统进行优化。

技术介绍

[0002]语音合成，又称文语转换(Text To Speech,TTS)，是一种可以将任意输入文本转换成相应语音的技术。传统的语音合成系统通常包括前端和后端两个模块。前端模块主要是对输入文本进行分析，提取后端模块所需要的语言学信息，对于中文合成系统而言，前端模块一般包含文本正则化、分词、词性预测、多音字消歧、韵律预测等子模块。后端模块根据前端分析结果，通过一定的方法生成语音波形，后端系统一般分为基于统计参数建模的语音合成(或称参数合成)以及基于单元挑选和波形拼接的语音合成(或称拼接合成)。目前随着端到端技术的提出和日趋成熟，单说话人语音合成系统，已经能够合成与人类发音具有相似自然度的语音，但是在实际应用场景中，单说话人语音合成系统已经无法满足人们的日常需求。
[0003]例如，在电子书朗读中，往往需要合成不同角色，不同情感或风格的音频。现有的语音合成方法，往往需要大量的数据集训练才能合成高质量的目标风格和目标说话人的音频，此外对于不同的风格和角色也不能做到很好的分离，尤其是在只有少量的参考音频进行微调的情况下，合成音频的质量更无法得到保障。
[0004]在过去的几年中，深度神经网络模型虽然在语音的多种任务上都取得了突破性进展，但却依旧受制于模型训练时所需的大量标注数据。自监督预训练方法的...

【技术保护点】

【技术特征摘要】
1.基于自监督学习和互信息解耦技术的语音合成方法，其特征在于，包括如下四个步骤：步骤一，数据预处理：文本需要进行前端处理，通常以字符作为输入，而文本与音频成对的数据可以作为训练数据；预处理还需进行梅尔谱特征的提取；步骤二，针对大模型采用自监督学习的方式进行训练：采用HUBERT和wav2vec模型作为预训练大模型，并采用大量的无标签方式对齐进行训练；步骤三，设计说话人分类和风格分类两个任务作为下游任务，固定步骤二所训练模型的权重参数，用于得到任务相关的特征表示：(1)步骤二中的大模型包含N层的神经网络，N层网络的输出[P1,P2,
…
,P
N
]都用来学习最后的任务相关特征表示；(2)设计注意力机制模块，其为可以学习的神经网络层，用于将N层神经网络的输出进行加权，得到暂时的通用特征表示P
F
，如下公式所示：P
F
＝Atten(P1,P2,
…
,P
N
)其中，Atten是为可学习的网络层，用来学习权重，对[P1,P2,
…
,P
N
]进行加权；(3)说话人分类和风格分类采用线性层加激活函数用来预测属于哪一种说话人或哪一种风格类别的概率，并学习到初步的任务相关的特征T
speaker
和T
style
；步骤四，利用互信息对T
speaker
和T
style
进行解耦，互信息反映两个变量的相关性，假设两个随机变量X、Y，两个变量之间的互信息MI(X；Y)可以通过计算联合概率分布P

【专利技术属性】
技术研发人员：王龙标，贡诚，张句，王宇光，关昊天，
申请(专利权)人：慧言科技天津有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人