语音资源确定方法、装置、电子设备及非易失性存储介质制造方法及图纸

技术编号：40646509 阅读：4 留言：0更新日期：2024-03-13 21:26

本申请公开了一种语音资源确定方法、装置、电子设备及非易失性存储介质。其中，该方法包括：获取目标输入文本，并依据目标变分自编码器对目标输入文本进行编码，得到目标输入文本对应的隐变量；采用目标变分自编码器，依据隐变量，确定目标输入文本对应的候选正则化表达式；在目标输入文本符合候选正则化表达式对应的文本规则情况下，确定候选正则化表达式为目标正则化表达式；获取资源数据库中目标正则化表达式对应的语音资源数据，其中，语音资源数据用于对目标输入文本进行语音回复。本申请解决了由于客服场景的语音合成任务中输入的文本较短，造成相关技术在确定与输入文本对应的语音资源时准确率较差的技术问题。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及计算机，具体而言，涉及一种语音资源确定方法、装置、电子设备及非易失性存储介质。

技术介绍

1、在客服领域的语音合成任务中，经常面临着合成文本仅有部分槽位发生变化的情景，针对该场景，为了充分利用已合成的音频资源，可以仅对槽位信息进行变化，针对性合成槽位语音。为此，在业务场景中需要维护资源数据库，以支持槽位变化的文本和音频资源检索。

2、具体地，在合成输入文本对应的回复语音时，需要根据输入文本快速检索出对应的带槽位正则表达式文本，进而在资源数据库中取出正则表达式所对应的示例文本和语音数据。然而，在客服场景的语音合成任务中，输入的文本往往较短，相关技术在确定与输入文本对应的语音资源时存在准确率较差的问题。

3、针对上述的问题，目前尚未提出有效的解决方案。

技术实现思路

1、本申请实施例提供了一种语音资源确定方法、装置、电子设备及非易失性存储介质，以至少解决由于客服场景的语音合成任务中输入的文本较短，造成相关技术在确定与输入文本对应的语音资源时准确率较差的技术问题。

2、根据本申请实施例的一个方面，提供了一种语音资源确定方法，包括：获取目标输入文本，并依据目标变分自编码器对目标输入文本进行编码，得到目标输入文本对应的隐变量，其中，隐变量用于表征目标输入文本的文本特征；采用目标变分自编码器，依据隐变量，确定目标输入文本对应的候选正则化表达式；在目标输入文本符合候选正则化表达式对应的文本规则情况下，确定候选正则化表达式为目标正则化表达式；获取资源数

3、可选地，目标变分自编码器通过以下步骤训练得到：获取第一训练集，其中，第一训练集中包括：多个训练文本集合，以及每个训练文本集合所对应的第一正则化表达式，每个训练文本集合中均包含多个目标训练文本，同一训练文本集合内的目标训练文本对应同一类别；对第一训练集进行数据均衡操作，得到目标训练集，其中，数据均衡操作用于平衡第一训练集中各个训练文本集合中目标训练文本的数量；依据目标训练集，对初始变分自编码器进行训练，得到目标变分自编码器。

4、可选地，初始变分自编码器中包括：编码器、解码器、分类器和梯度反转层，其中，梯度反转层用于学习每一类别的全部目标训练文本之间的不变特征；依据目标训练集，对初始变分自编码器进行训练，得到目标变分自编码器包括：依据编码器，确定目标训练集中目标训练文本对应的隐变量；依据解码器、分类器和梯度反转层，确定隐变量对应的第二正则化表达式；采用目标损失函数，依据第一正则化表达式和第二正则化表达式，确定目标损失值；依据目标损失值，对初始变分自编码器的模型参数进行调整，重复上述训练过程，直至目标损失值满足预设阈值条件，得到目标变分自编码器。

5、可选地，采用目标损失函数，依据第一正则化表达式和第二正则化表达式，确定目标损失值包括：依据第一正则化表达式和第二正则化表达式，确定第一交叉熵和第二交叉熵，其中，第一交叉熵用于表征第一正则化表达式所对应的表达式类别与第二正则化表达式所对应的表达式类别之间的偏差程度，第二交叉熵用于表征第一正则化表达式与第二正则化表达式之间的偏差程度；确定重构损失和散度损失，其中，重构损失用于表征初始变分自编码器的输入与初始变分自编码器输出之间的差异程度，散度损失用于表征隐变量的数据分布与预设数据分布类型之间的差异程度，预设数据分布类型包括：高斯分布；依据第一交叉熵、第二交叉熵、重构损失和散度损失，确定目标损失值。

6、可选地，获取第一训练集还包括：获取初始训练文本，并依据初始训练文本的类别，将初始训练文本划分至对应的训练文本集合中；以及，删除初始训练文本中的预设分割字符，并将初始训练文本中预设类型的字符替换为预设标准字符，得到目标训练文本，其中，预设分割字符包括：标点符号字符，预设类型的字符包括：英文字符。

7、可选地，方法还包括：在目标输入文本不符合候选正则化表达式对应的文本规则情况下，获取目标输入文本对应的隐变量；采用激活函数，对隐变量进行二值化操作，得到第一二进制序列；对系统中存储的各个正则化表达式进行二值化操作，得到第二二进制序列；依据第一二进制序列和第二二进制序列进行匹配，将与第一二进制序列匹配的第二二进制序列所对应正则化表达式，确定为目标正则化表达式。

8、可选地，依据第一二进制序列和第二二进制序列进行匹配包括：将第一二进制序列和第二二进制序列均平均划分为目标数量个序列段；在第一二进制序列和第二二进制序列之间匹配到一个完全相同的序列段的情况下，判定第一二进制序列和第二二进制序列之间的海明距离小于预设距离阈值，将第二二进制序列添加至候选二进制序列集合中，其中，海明距离为第一二进制序列和第二二进制序列之间不一致的位的数量，用于表征第一二进制序列和第二二进制序列之间的相似程度，目标数量由预设距离阈值确定；在候选二进制序列集合中，确定与第一二进制序列完全匹配的第二二进制序列。

9、根据本申请实施例的另一个方面，还提供了一种语音资源确定装置，包括：数据获取模块，用于获取目标输入文本，并依据目标变分自编码器对目标输入文本进行编码，得到目标输入文本对应的隐变量，其中，隐变量用于表征目标输入文本的文本特征；数据分类模块，用于采用目标变分自编码器，依据隐变量，确定目标输入文本对应的候选正则化表达式；结果校验模块，用于在目标输入文本符合候选正则化表达式对应的文本规则情况下，确定候选正则化表达式为目标正则化表达式；资源确定模块，用于获取资源数据库中目标正则化表达式对应的语音资源数据，其中，资源数据库中包括多个正则化表达式，以及正则化表达式所对应的语音资源数据，语音资源数据用于对目标输入文本进行语音回复。

10、根据本申请实施例的又一方面，还提供了一种电子设备，包括：存储器和处理器，处理器用于运行存储在存储器中的程序，其中，程序运行时执行语音资源确定方法。

11、根据本申请实施例的再一方面，还提供了一种非易失性存储介质，非易失性存储介质包括存储的计算机程序，其中，非易失性存储介质所在设备通过运行计算机程序执行语音资源确定方法。

12、在本申请实施例中，采用获取目标输入文本，并依据目标变分自编码器对目标输入文本进行编码，得到目标输入文本对应的隐变量，其中，隐变量用于表征目标输入文本的文本特征；采用目标变分自编码器，依据隐变量，确定目标输入文本对应的候选正则化表达式；在目标输入文本符合候选正则化表达式对应的文本规则情况下，确定候选正则化表达式为目标正则化表达式；获取资源数据库中目标正则化表达式对应的语音资源数据，其中，资源数据库中包括多个正则化表达式，以及正则化表达式所对应的语音资源数据，语音资源数据用于对目标输入文本进行语音回复的方式，通过基于变分自编码器(variationalauto-encoder，vae)的分类方法，用轻量化的va本文档来自技高网...

【技术保护点】

1.一种语音资源确定方法，其特征在于，包括：

2.根据权利要求1所述的语音资源确定方法，其特征在于，所述目标变分自编码器通过以下步骤训练得到：

3.根据权利要求2所述的语音资源确定方法，其特征在于，所述初始变分自编码器中包括：编码器、解码器、分类器和梯度反转层，其中，所述梯度反转层用于学习每一类别的全部所述目标训练文本之间的不变特征；依据所述目标训练集，对初始变分自编码器进行训练，得到所述目标变分自编码器包括：

4.根据权利要求3所述的语音资源确定方法，其特征在于，采用目标损失函数，依据所述第一正则化表达式和所述第二正则化表达式，确定目标损失值包括：

5.根据权利要求2所述的语音资源确定方法，其特征在于，获取第一训练集还包括：

6.根据权利要求1所述的语音资源确定方法，其特征在于，所述方法还包括：

7.根据权利要求6所述的语音资源确定方法，其特征在于，依据所述第一二进制序列和所述第二二进制序列进行匹配包括：

8.一种语音资源确定装置，其特征在于，包括：

9.一种电子设备，其特征在于，包

10.一种非易失性存储介质，其特征在于，所述非易失性存储介质包括存储的计算机程序，其中，所述非易失性存储介质所在设备通过运行所述计算机程序执行权利要求1至7中任意一项所述语音资源确定方法。

...

【技术特征摘要】

1.一种语音资源确定方法，其特征在于，包括：

2.根据权利要求1所述的语音资源确定方法，其特征在于，所述目标变分自编码器通过以下步骤训练得到：

5.根据权利要求2所述的语音资源确定方法，其特征在于，获取第...

【专利技术属性】
技术研发人员：曹议丹，
申请(专利权)人：中国电信股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人