基于语音的动作生成方法、装置、电子设备及存储介质制造方法及图纸

技术编号：36813169 阅读：10 留言：0更新日期：2023-03-09 00:57

本申请提出一种基于语音的动作生成方法、装置、电子设备及存储介质，该方法包括：确定目标语音中包含的动作意图，并确定与所述动作意图相匹配的第一动作序列；以及，从所述目标语音中提取得到语音韵律特征，并基于所述语音韵律特征预测得到与所述语音韵律特征相匹配的第二动作序列；对所述第一动作序列和所述第二动作序列进行融合处理，生成与所述目标语音相匹配的动作序列。上述方案通过多维度的信息生成了与目标语音相匹配的动作序列，从而使得生成的与目标语音相匹配的动作序列更准确，并且更加自然、协调。协调。协调。

全部详细技术资料下载

【技术实现步骤摘要】
基于语音的动作生成方法、装置、电子设备及存储介质

[0001]本申请涉及人工智能
，尤其涉及一种基于语音的动作生成方法、装置、电子设备及存储介质。

技术介绍

[0002]更自然的人机交互方式一直是工业界和学术界持续追求的目标，近年来以虚拟人为载体的多模态交互被认为是5G+AI时代的新一代交互方式，受到越来越多的关注。在人与人之间的日常交流过程中肢体动作的表达扮演了非常重要的作用，能够更有效传达强调、态度、语义等信息，因此在人机交互中如何基于语音合成出更自然的肢体动作近年来也得到持续的关注。
[0003]常规的基于语音合成肢体动作的方案是预先构建动作库，在人机交互过程中，根据机器语音从动作库中检索相匹配的动作进行肢体动作合成。这种方案生成的肢体动作单调且生硬，不够自然。

技术实现思路

[0004]基于上述技术现状，本申请提出一种基于语音的动作生成方法、装置、电子设备及存储介质，能够生成与语音相匹配的更加自然、协调的肢体动作。
[0005]为了达到上述技术目的，本申请具体提出如下技术方案：
[0006]一种基于语音的动作生成方法，包括：
[0007]确定目标语音中包含的动作意图，并确定与所述动作意图相匹配的第一动作序列；
[0008]以及，从所述目标语音中提取得到语音韵律特征，并基于所述语音韵律特征预测得到与所述语音韵律特征相匹配的第二动作序列；
[0009]对所述第一动作序列和所述第二动作序列进行融合处理，生成与所述目标语音相匹配的动作序列。
>[0010]可选的，所述确定目标语音中包含的动作意图，包括：
[0011]对目标语音进行基于预设动作意图类别标签的动作意图分类处理，确定所述目标语音中包含的动作意图。
[0012]可选的，所述对目标语音进行基于预设动作意图类别标签的动作意图分类处理，确定所述目标语音中包含的动作意图，包括：
[0013]对应每一个预设动作意图类别标签，分别对所述目标语音进行二分类处理；
[0014]基于对应每一个预设动作意图类别标签的二分类结果，确定所述目标语音中包含的动作意图；
[0015]其中，所述二分类处理包括确定所述目标语音中是否包含动作意图类别标签所对应的动作意图。
[0016]可选的，所述确定与所述动作意图相匹配的第一动作序列，包括：
[0017]从预先构建的动作码本集合中，筛选与所述动作意图相匹配的动作码本生成第一动作序列；
[0018]其中，所述动作码本集合中的动作码本用于组合得到任意的动作序列。
[0019]可选的，所述动作码本集合，通过如下处理得到：
[0020]对获取的动作序列进行拆分，得到各动作序列对应的动作序列单元，其中，获取的动作序列包括语义动作库中的动作的序列，以及目标对象说话状态下的连续动作序列；
[0021]通过对各动作序列对应的动作序列单元进行编码，并利用编码结果恢复动作序列，确定与各个动作序列单元对应的动作编码；
[0022]对所有动作序列单元对应的动作编码进行去重，并将去重后的各个动作编码作为动作码本构成动作码本集合。
[0023]可选的，从所述目标语音中提取得到语音韵律特征，包括：
[0024]将所述目标语音输入预先训练得到的韵律特征提取模型中，得到所述目标语音的语音韵律特征；
[0025]其中，所述韵律特征提取模型通过第一训练方式和/或第二训练方式训练得到，所述第一训练方式用于训练所述韵律特征提取模型从输入语音中提取得到语音韵律特征，所述第二训练方式用于训练所述韵律特征提取模型在从输入语音中提取语音韵律特征时滤除声纹特征和文本特征。
[0026]可选的，所述韵律特征提取模型的训练过程包括：
[0027]将样本语谱图输入韵律特征提取模型，得到所述韵律特征提取模型从所述样本语谱图中提取的韵律特征；
[0028]利用所述韵律特征，以及所述样本语谱图的声纹特征和文本特征进行语谱图重建，得到重建语谱图；
[0029]基于所述样本语谱图与所述重建语谱图，计算得到语谱重建损失；
[0030]利用所述韵律特征进行声纹特征重建和文本特征重建，得到重建声纹特征和重建文本特征；
[0031]基于所述声纹特征和所述重建声纹特征，计算得到第一对抗损失，以及，基于所述文本特征和所述重建文本特征，计算得到第二对抗损失；
[0032]以所述语谱重建损失小于预设的第一损失阈值，以及所述第一对抗损失和所述第二对抗损失大于预设的第二损失阈值为目标，对所述韵律特征提取模型进行运算参数修正。
[0033]可选的，基于所述语音韵律特征预测得到与所述语音韵律特征相匹配的第二动作序列，包括：
[0034]将所述语音韵律特征输入预先训练得到的动作序列预测模型，得到与所述语音韵律特征相匹配的动作码本序列，并将得到的动作码本序列作为第二动作序列；
[0035]其中，所述动作序列预测模型用于预测与语音韵律特征相匹配的动作所包含的动作码本，并利用预测的动作码本组成动作码本序列，所述动作码本为用于组成连续动作序列的动作序列单元对应的动作编码。
[0036]可选的，所述方法还包括，确定所述动作意图在所述目标语音中所处的位置区间；
[0037]对所述第一动作序列和所述第二动作序列进行融合处理，生成与所述目标语音相
匹配的动作序列，包括：
[0038]将所述第二动作序列中的、位于所述位置区间相对应的第一位置区间的动作序列替换为所述第一动作序列，并对替换后的第二动作序列进行解码得到与所述目标语音相匹配的动作序列。
[0039]一种基于语音的动作生成装置，包括：
[0040]第一动作预测单元，用于确定目标语音中包含的动作意图，并确定与所述动作意图相匹配的第一动作序列；
[0041]第二动作预测单元，用于从所述目标语音中提取得到语音韵律特征，并基于所述语音韵律特征预测得到与所述语音韵律特征相匹配的第二动作序列；
[0042]动作合成单元，用于对所述第一动作序列和所述第二动作序列进行融合处理，生成与所述目标语音相匹配的动作序列。
[0043]一种电子设备，包括：
[0044]存储器和处理器；
[0045]所述存储器与所述处理器连接，用于存储程序；
[0046]所述处理器，用于通过运行所述存储器中的程序，实现上述的基于语音的动作生成方法。
[0047]一种存储介质，所述存储介质上存储有计算机程序，所述计算机程序被处理器运行时，实现上述的基于语音的动作生成方法。
[0048]本申请提出的基于语音的动作生成方法，能够确定目标语音中包含的动作意图，并确定与该动作意图相匹配的第一动作序列，以及从目标语音中提取得到语音韵律特征并基于该语音韵律特征预测确定与该语音韵律特征相匹配的第二动作序列，上述处理通过不同的维度分别得到了与目标语音相匹配的第一动作序列和第二动作序列。在此基础上，将第一动本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于语音的动作生成方法，其特征在于，包括：确定目标语音中包含的动作意图，并确定与所述动作意图相匹配的第一动作序列；以及，从所述目标语音中提取得到语音韵律特征，并基于所述语音韵律特征预测得到与所述语音韵律特征相匹配的第二动作序列；对所述第一动作序列和所述第二动作序列进行融合处理，生成与所述目标语音相匹配的动作序列。2.根据权利要求1所述的方法，其特征在于，所述确定目标语音中包含的动作意图，包括：对目标语音进行基于预设动作意图类别标签的动作意图分类处理，确定所述目标语音中包含的动作意图。3.根据权利要求2所述的方法，其特征在于，所述对目标语音进行基于预设动作意图类别标签的动作意图分类处理，确定所述目标语音中包含的动作意图，包括：对应每一个预设动作意图类别标签，分别对所述目标语音进行二分类处理；基于对应每一个预设动作意图类别标签的二分类结果，确定所述目标语音中包含的动作意图；其中，所述二分类处理包括确定所述目标语音中是否包含动作意图类别标签所对应的动作意图。4.根据权利要求1所述的方法，其特征在于，所述确定与所述动作意图相匹配的第一动作序列，包括：从预先构建的动作码本集合中，筛选与所述动作意图相匹配的动作码本生成第一动作序列；其中，所述动作码本集合中的动作码本用于组合得到任意的动作序列。5.根据权利要求4所述的方法，其特征在于，所述动作码本集合，通过如下处理得到：对获取的动作序列进行拆分，得到各动作序列对应的动作序列单元，其中，获取的动作序列包括语义动作库中的动作的序列，以及目标对象说话状态下的连续动作序列；通过对各动作序列对应的动作序列单元进行编码，并利用编码结果恢复动作序列，确定与各个动作序列单元对应的动作编码；对所有动作序列单元对应的动作编码进行去重，并将去重后的各个动作编码作为动作码本构成动作码本集合。6.根据权利要求1所述的方法，其特征在于，从所述目标语音中提取得到语音韵律特征，包括：将所述目标语音输入预先训练得到的韵律特征提取模型中，得到所述目标语音的语音韵律特征；其中，所述韵律特征提取模型通过第一训练方式和/或第二训练方式训练得到，所述第一训练方式用于训练所述韵律特征提取模型从输入语音中提取得到语音韵律特征，所述第二训练方式用于训练所述韵律特征提取模型在从输入语音中提取语音韵律特征时滤除声纹特征和文本特征。7.根据权利要求6所述的方法，其特征在于，所述韵律特征提取模型的训练过程包括：将样本语谱图输入韵律特征提取模型，得到所述韵律特征提取模...

【专利技术属性】
技术研发人员：何山，周良，殷兵，刘聪，戴礼荣，
申请(专利权)人：科大讯飞股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人