模型部署方法、音频生成方法、电子设备、介质及产品技术

技术编号：33919983 阅读：25 留言：0更新日期：2022-06-25 20:52

本申请公开了模型部署方法、音频生成方法、电子设备、介质及产品，应用于第一设备，所述第一设备部署有基础声学模型和不同说话人对应的预设正则化参数，所述声学模型部署优化方法包括：在各预设正则化参数中选取目标说话人对应的目标正则化参数，其中，各所述预设正则化参数是根据不同说话人的音频特征表示对基础声学模型的正则化参数分别进行优化得到；根据所述目标正则化参数和所述基础声学模型，部署所述目标说话人对应的个性化声学模型。本申请解决了现有技术中个性化声学模型部署成本高的技术问题。本高的技术问题。本高的技术问题。

全部详细技术资料下载

【技术实现步骤摘要】
模型部署方法、音频生成方法、电子设备、介质及产品

[0001]本申请涉及金融科技(Fintech)的人工智能
，尤其涉及一种模型部署方法、音频生成方法、电子设备、介质及产品。

技术介绍

[0002]随着金融科技，尤其是互联网科技金融的不断发展，越来越多的技术(如分布式、人工智能等)应用在金融领域，但金融业也对技术提出了更高的要求，如对金融业对应待办事项的分发也有更高的要求。
[0003]随着人工智能的不断发展，人工智能的应用也越来越广泛，在日常生活中常需要将文本转换为音频，而为了转换后的音频具备特定说话人的个性化音色，通常将文本和说话人的音频特征表示共同输入该特定说话人对应的特定声学模型，从而得到具备个性化音色的音频，所以在进行声学模型部署时，通常在终端部署各个特定说话人对应的个性化声学模型，从而在进行语音合成时，即可直接依据特定说话人和个性化声学模型之间的对应关系，直接选取特定说话人对应的个性化声学模型进行语音合成，但是当特定说话人数量较多时，则需要在终端针对每一个特定说话人部署一个对应的个性化声学模型，而声...

【技术保护点】

【技术特征摘要】
1.一种声学模型部署优化方法，其特征在于，应用于第一设备，所述第一设备部署有基础声学模型和不同说话人对应的预设正则化参数，所述声学模型部署优化方法包括：在各预设正则化参数中选取目标说话人对应的目标正则化参数，其中，各所述预设正则化参数是根据不同说话人的音频特征表示对基础声学模型的正则化参数分别进行优化得到；根据所述目标正则化参数和所述基础声学模型，部署所述目标说话人对应的个性化声学模型。2.如权利要求1所述声学模型部署优化方法，其特征在于，在所述在各预设正则化参数中选取目标说话人对应的目标正则化参数，其中，各所述预设正则化参数是根据不同说话人的音频特征表示对基础声学模型的正则化参数分别进行优化得到的步骤之前，所述声学模型部署优化方法还包括：获取说话人的音频样本和所述音频样本对应的文本样本；将所述音频样本转换为对应的音频特征表示，以及将所述文本样本转换为对应的文本特征表示；依据所述音频特征表示和所述文本特征表示，通过对所述基础声学模型进行微调，对所述正则化参数进行优化，得到所述说话人对应的预设正则化参数；和/或接收第二设备下发的不同说话人对应的预设正则化参数。3.如权利要求2所述声学模型部署优化方法，其特征在于，所述依据所述音频特征表示和所述文本特征表示，通过对所述基础声学模型进行微调，对所述正则化参数进行优化，得到所述说话人对应的预设正则化参数的步骤包括：将所述音频特征表示和所述文本特征表示进行拼接，得到拼接特征表示；依据所述基础声学模型，将所述拼接特征表示转换为输出个性化声学特征；获取所述说话人对所述文本样本的真实个性化声学特征，依据所述输出个性化声学特征和所述真实个性化声学特征之间的差距，计算声学模型损失；依据所述声学模型损失，在保证所述基础声学模型的神经元参数不变的情况下对所述正则化参数进行迭代优化，得到所述说话人对应的预设正则化参数。4.如权利要求1或2所述声学模型部署优化方法，其特征在于，在所述根据所述目标正则化参数和所述基础声学模型，部署所述目标说话人对应的个性化声学模型的步骤之后，所述声学模型部署优化方法还包括：获取所述目标说话人对应的目标音频特征表示以及目标文本对应的目标文本特征表示；依据所述个性化声学模型，将所述目标音频特征表示和所述目标文本特征表示共同转换为所述目标说话人对于所述目标文本的目标个性化声学特征；根据所述目标个性化声学特征，生成所述目标说话人对于所述目标文本的个性化音频。5.一种声学模型部署优化方法，其特征在于，应用于第二设备，所述声学模型部署优化方法包括：获取各说话人的音频样本和各所述音频样本对应的文本样本；将各所述音频样本分别转换为对应的音频特征表示，以及将各所述文本样本分别转换为对应的文本特征表示；
依据各所述音频特征表示和各所述文本特征表示，通过对基础声学模型进行微调，分别对所述基础声学模型的正则化参数进行优化，得到各所述说话人对应的预设正则化参数；依据各所述预设正则化参数和所述基础声学模型，在所述第一设备处部署个性化声学模型。6.如权利要求5所述声学模型部署优化方法，其特征在于，所述依据各所述音频特征表示和各所述文本特征表示，通过对基础声学模型进行微调，分别对所述基础声学模型的正则化参数进行优化，得到各所述说话人对应的预设正则化参数的步骤包括：将所述音频特征表示和所述文本特征表示进行拼接，得到拼接特征表示；依据所述基础声学模型，将所述拼接特征表示转换为输出个性化声学特征；获取所述说话人对所述文本样本的真实个性化声学特征，依据所述输出个性化声学特征和所述真实个性化声学特征之间的差距，计算声学模型损失；依据所述声学模型损失，在保证所述基础声学模型的神经元参数不变的情况下对所述正则化参数进行迭代优化，得到所述说话人对应的预设正则化参数。7.如权利要求5所述声学模型部署优化方法，其特征...

【专利技术属性】
技术研发人员：谢泽颖，
申请(专利权)人：深圳前海微众银行股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人