一种语音数据处理方法、装置、设备及介质制造方法及图纸

技术编号：24802260 阅读：34 留言：0更新日期：2020-07-07 21:30

本发明专利技术实施例公开了一种语音数据处理方法、装置、设备及介质，用以减少所需的目标发音人的语音训练数据，降低语音合成的工作量、周期和成本。所述语音数据处理方法，包括：获取多个发音人的语音训练数据和目标发音人的语音训练数据，所述目标发音人的语音训练数据的数量远小于所述多个发音人的语音训练数据总数量；基于所述多个发音人的语音训练数据和所述目标发音人的语音训练数据，训练生成用于合成所述目标发音人语音的初级语音合成模型；根据预先配置的文本语料，利用所述初级语音合成模型，得到所述目标发音人用于语音合成的语料数据。

全部详细技术资料下载

【技术实现步骤摘要】
一种语音数据处理方法、装置、设备及介质
本专利技术涉及语音处理领域，尤其是涉及一种语音数据处理方法、装置、设备及介质。
技术介绍
随着各类智能音箱产品的发布，除了外观、音质、价格、内容等要素以外，用户越来越看重智能音箱的人工智能(ArtificialIntelligence，AI)能力和个性化能力。为打造个性化和差异化的音箱，不仅需要通过语音合成技术输出不同人设不同音色的语音，而且还需要使合成的语音清晰自然。为了合成声音清晰自然且富有个性化的语音，现有语音合成系统的一般做法是选择一个目标发音人，设计大量的文本语料，依据设计的文本语料录制该目标发音人的大量语料数据，然后基于录制的语料数据合成目标发音人的语音。虽然通过上述方式合成的语音音色与发音人本身发出的语音较为接近，但是在获取用于合成目标发音人语音的语料数据时，需要录制目标发音人的大量发音数据，不但工作量大，周期长，而且成本较高。
技术实现思路
本专利技术实施例提供一种语音数据处理方法、装置、设备及介质，用以减少所需的目标发音人的语音训练...

【技术保护点】
1.一种语音数据处理方法，其特征在于，包括：/n获取多个发音人的语音训练数据和目标发音人的语音训练数据，所述目标发音人的语音训练数据的数量远小于所述多个发音人的语音训练数据总数量；/n基于所述多个发音人的语音训练数据和所述目标发音人的语音训练数据，训练生成用于合成所述目标发音人语音的初级语音合成模型；/n根据预先配置的文本语料，利用所述初级语音合成模型，得到所述目标发音人用于语音合成的语料数据。/n

【技术特征摘要】
1.一种语音数据处理方法，其特征在于，包括：
获取多个发音人的语音训练数据和目标发音人的语音训练数据，所述目标发音人的语音训练数据的数量远小于所述多个发音人的语音训练数据总数量；
基于所述多个发音人的语音训练数据和所述目标发音人的语音训练数据，训练生成用于合成所述目标发音人语音的初级语音合成模型；
根据预先配置的文本语料，利用所述初级语音合成模型，得到所述目标发音人用于语音合成的语料数据。

2.根据权利要求1所述的方法，其特征在于，根据预先配置的文本语料，利用所述初级语音合成模型，得到所述目标发音人用于语音合成的语料数据，包括：
将所述文本语料输入至所述初级语音合成模型，得到所述文本语料对应的语音合成数据；
从所述语音合成数据中，筛选出符合预设要求的语音合成数据，并确定为所述目标发音人的语料数据。

3.根据权利要求1所述的方法，其特征在于，根据预先配置的文本语料，利用所述初级语音合成模型，得到所述目标发音人用于语音合成的语料数据之后，还包括：
利用所述语料数据，对所述初级语音合成模型的参数进行调整，得到用于合成所述目标发音人语音的目标语音合成模型。

4.根据权利要求1所述的方法，其特征在于，根据预先配置的文本语料，利用所述初级语音合成模型，得到所述目标发音人用于语音合成的语料数据之后，还包括：
从所述语料数据中提取语音片段，利用提取出的语音片段组成用于拼接合成所述目标发音人语音的语音库。

5.根据权利要求1-4中任一项所述的方法，其特征在于，基于所述多个发音人的语音训练数据和所述目标发音人的语音训练数据，训练生成用于合成所述目标发音人语音的初级语音合成模型，包括：
基于所述多个...

【专利技术属性】
技术研发人员：杨鹏，孙子涵，邱家洪，
申请(专利权)人：北京猎户星空科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人