一种语音合成方法及装置制造方法及图纸

技术编号：24097193 阅读：41 留言：0更新日期：2020-05-09 10:58

本发明专利技术公开了一种语音合成方法及装置，该方法包括：通过预设设备对用户依次录制N条语音信息；当预设设备录制完前N/2条语音信息时，将前N/2条语音信息发送至服务器端；通过前N/2条语音信息对服务器端的预设基线模型进行训练，以得到第一语音合成模型；当预设设备录制完后N/2条语音信息时，将后N/2条语音信息发送至服务器端；通过后N/2条语音信息对第一语音合成模型进行训练，以得到第二语音合成模型。通过本发明专利技术的技术方案，可以根据用户的需求合成具有用户自己说话方式或情感的语音合成模型，合成结果的自然度高，即与用户自己的说话方式、情感及用户声音中的音色相似度高，并且模型构建所花费的时间短，大大提升了用户体验。

A speech synthesis method and device

全部详细技术资料下载

【技术实现步骤摘要】
一种语音合成方法及装置
本专利技术涉及语音合成
，特别涉及一种语音合成方法及装置。
技术介绍
语音合成，又称文语转换(TexttoSpeech)技术，能将任意文字信息实时转化为标准流畅的语音朗读出来，相当于给机器装上了人工嘴巴。它涉及声学、语言学、数字信号处理、计算机科学等多个学科技术，是中文信息处理领域的一项前沿技术，解决的主要问题就是如何将文字信息转化为可听的声音信息，也即让机器像人一样开口说话。所谓个性化语音合成，就是通过身边的一些录音设备，录取某个人的某些语音片段后，让TTS(TextToSpeech)语音技术，合成出像某个特定人的说话语音，说话方式，和说话情感。目前，个性化语音合成时，对于不同年龄、不同性别的用户，均采用单一的语音合成模型，只能按照此模型中特有的说话方式、情感进行语音合成，这就使得语音合成的结果与用户自己的说话方式、情感及声音音色相似度低，极大的影响了用户的体验。
技术实现思路
本专利技术提供一种语音合成方法及装置。所述技术方案如下：根据本专利技术实施例的第...

【技术保护点】
1.一种语音合成方法，其特征在于，包括：/n通过预设设备对用户依次录制N条语音信息，其中，N为正整数；/n当所述预设设备录制完前N/2条语音信息时，将所述前N/2条语音信息发送至服务器端；/n通过所述前N/2条语音信息对所述服务器端的预设基线模型进行训练，以得到第一语音合成模型；/n当所述预设设备录制完后N/2条语音信息时，将所述后N/2条语音信息发送至所述服务器端；/n通过所述后N/2条语音信息对所述第一语音合成模型进行训练，以得到第二语音合成模型，其中，所述第二语音合成模型用于语音合成。/n

【技术特征摘要】
1.一种语音合成方法，其特征在于，包括：
通过预设设备对用户依次录制N条语音信息，其中，N为正整数；
当所述预设设备录制完前N/2条语音信息时，将所述前N/2条语音信息发送至服务器端；
通过所述前N/2条语音信息对所述服务器端的预设基线模型进行训练，以得到第一语音合成模型；
当所述预设设备录制完后N/2条语音信息时，将所述后N/2条语音信息发送至所述服务器端；
通过所述后N/2条语音信息对所述第一语音合成模型进行训练，以得到第二语音合成模型，其中，所述第二语音合成模型用于语音合成。

2.如权利要求1所述的方法，其特征在于，所述通过所述前N/2条语音信息对所述服务器端的预设基线模型进行训练，以得到第一语音合成模型，包括：
当所述N条语音信息小于预设条数时，确定所述第一语音合成模型达到收敛状态；
获取通过所述前N/2条语音信息对所述服务器端的预设基线模型进行训练的过程中产生的预设数目个模型；
当所述N条语音信息大于或等于预设条数时，选取所述预设数目个模型中符合预设标准的模型作为所述第一语音合成模型。

3.如权利要求1所述的方法，其特征在于，还包括：
将所述语音信息发送至所述服务器端之前，对所述语音信息进行降噪处理和筛选处理，将降噪处理和筛选处理完成之后的语音信息发送至所述服务器端。

4.如权利要求3所述的方法，其特征在于，所述对所述语音信息进行筛选处理，包括：
获取所述用户预存的第一声纹信息；
提取所述语音信息中的第二声纹信息，以判断所述第一声纹信息与所述二声纹信息是否匹配；
当所述第一声纹信息与所述第二声纹信息匹配时，根据预设标准对所述语音信息进行筛选。

5.如权利要求1所述的方法，其特征在于，所述第二语音合成模型已达到收敛状态。

6.一种语音合成装置，其特征在于，包括：

【专利技术属性】
技术研发人员：孙见青，
申请(专利权)人：云知声智能科技股份有限公司，厦门云知芯智能科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人