提升个性化合成语音质量的方法技术

技术编号：24941975 阅读：38 留言：0更新日期：2020-07-17 21:49

本发明专利技术涉及语音处理技术领域，提供了一种提升个性化合成语音质量的方法，包括以下步骤：S100采集用户语音作为原始语音数据；S200对原始语音数据进行降噪处理；S300利用降噪后的语音数据，通过模型转换将基底模型生成个性化语音模型；S400采用所述个性化模型与用户语音进行合成，得到个性化合成语音。本专利的提升个性化合成语音质量的方法，提通过对用户采集数据进行离线降噪处理，提升个性化语音模型质量，之后采用该质量较好的个性化语音模型对用户语音进行个性化语音合成的模型训练，达到提升个性化合成语音质量的目的。

全部详细技术资料下载

【技术实现步骤摘要】
提升个性化合成语音质量的方法
本专利技术涉及语音处理
，特别涉及一种提升个性化合成语音质量的方法。
技术介绍
语音合成技术应用广泛，由于现在合成语音的音质和自然度都不错，大家对合成系统提出了更多的需求，语音合成有向多样化和个性化发展的趋势，比如多样化的语音合成，包括多个发音人、多种发音风格、多语种等，现在带有语音合成功能的技术软件非常多，例如在可训练语音合成技术基础上发展起来的模型自适应技术软件等。用户数据在采集过程中难免会有噪声、信道等影响，与基底模型间存在不匹配情况，从而使得生成出的个性化语音合成模型质量下降较多，进而导致了个性化合成语音质量下降。
技术实现思路
为了解决上述技术问题，本专利技术提供了一种提升个性化合成语音质量的方法，包括以下步骤：S100采集用户语音作为原始语音数据；S200对原始语音数据进行降噪处理；S300利用降噪后的语音数据，通过模型转换将基底模型生成个性化语音模型；S400采用所述个性化模型进行语音合成，得到个性化合成语音。>可选的，在S200本文档来自技高网...

【技术保护点】
1.一种提升个性化合成语音质量的方法，其特征在于，包括以下步骤：/nS100采集用户语音作为原始语音数据；/nS200对原始语音数据进行降噪处理；/nS300利用降噪后的语音数据，通过模型转换将基底模型生成个性化语音模型；/nS400采用所述个性化模型进行语音合成，得到个性化合成语音。/n

【技术特征摘要】
1.一种提升个性化合成语音质量的方法，其特征在于，包括以下步骤：
S100采集用户语音作为原始语音数据；
S200对原始语音数据进行降噪处理；
S300利用降噪后的语音数据，通过模型转换将基底模型生成个性化语音模型；
S400采用所述个性化模型进行语音合成，得到个性化合成语音。

2.根据权利要求1所述的提升个性化合成语音质量的方法，其特征在于，在S200步骤中，采用离线降噪处理方式对语音数据进行降噪处理。

3.根据权利要求2所述的提升个性化合成语音质量的方法，其特征在于，所述离线降噪处理方式包括以下步骤：
S210对原始语音数据进行预加重处理，然后进行短时傅里叶变换；
S250采用降噪滤波器对变换后的语音数据进行滤波降噪处理；
S290对处理后数据进行短时傅里叶逆变换，恢复到时域，然后去加重，得到降噪后的语音数据。

4.根据权利要求3所述的提升个性化合成语音质量的方法，其特征在于，所述降噪滤波器由以下步骤得到：
S220采用全局噪声估计方式，对短时傅里叶变换后的语音数据进行噪声和有效语音估计；
S230根据噪声估计结果和有效语音估计结果生成降噪滤波器；
S240对降噪滤波器进行平滑处理。

5.根据权利要求4所述的提升个性化合成语音质量的方法，其特征在于，在S220步骤中，所述全局噪声估计方式包括以下步骤：
S222计算短时傅里叶变换后的语音数据每个时频点的信号能量值，在各时频点中筛选出所有能量值大于零的，按时间帧取对数平均值，以此对数平均值的指数运算值作为第一阈值；在各时频点中筛选出能量值大于零且低于第一阈值的时频点能量值，再次按时间帧取对数平均值，以该对数平均值的指数运算值作为第二阈值；把信号能量值与第二阈值对比，其中大于或者等于第二阈值的时频点为有效语音时频点并标记为1，小于第二阈值的时频点为噪声时频点并标记为0，由此得到时频点掩蔽的初步估计结果；
S2...

【专利技术属性】
技术研发人员：丁少为，关海欣，
申请(专利权)人：云知声智能科技股份有限公司，厦门云知芯智能科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人