一种语音识别和数字人共语手势生成方法技术

技术编号：40934212 阅读：23 留言：0更新日期：2024-04-18 14:54

本发明专利技术公开了一种语音识别和数字人共语手势生成方法，该方法包括：步骤一：语音识别将语音转换为文本；步骤二：文本分析获取基准动作；步骤三：语音到手势动作生成。步骤一中，所述语音识别采用自动语音识别技术进行语音识别，将人类语音转换为文本。发明专利技术分析经过语音识别后的文本，匹配动作库中的动作作为基准动作，结合语音和初始动作，基于生成式对抗网络，生成手势动作的骨骼关键点，进而在数字人说话时驱动数字人的手势，基于语音生成的共语手势的PCK准确率更高，生成的数字人手势更有效的模拟了现实中人类演讲中的手势动作，耗费的人力低，且提高数字人动作的流畅性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及人工智能，特别涉及一种语音识别和数字人共语手势生成方法。

技术介绍

1、在现实的人类沟通中，手势和说话人语音往往是强相关的，手势信号是人类正常沟通的一部分，这在演讲中表现最为明显，随着现代生成式对抗网络的数字人的发展，数字人在进行讲话时会伴随着手势动作。

2、而现有的数字人在讲话时的手势动作，大多是由动作捕捉真人动作来驱动，也可以预定义动作动画，通过动作指令来驱动，通过动作捕捉驱动数字人动作需要耗费人力，无法大规模推广，且通过动作指令驱动数字人动作的问题是动作之间的过渡不自然，每个动作都需要经历初始状态、动作准备、比划、姿势保持、动作收回等一些列程式化的过程，显得比较机械，近年来也有研究通过ai模型来驱动数字人的动作，例如在《learningindividualstyles of conversational gesture》中的方法，该研究通过人类说话的视频数据建立语音与手势的关系，然后直接通过语音生成手势，但语音生成数字人手势关键点的正确率仍存在不足，本申请提出一种语音识别和数字人共语手势生成方法。

...

【技术保护点】

1.一种语音识别和数字人共语手势生成方法，其特征在于，该方法包括：

2.根据权利要求1所述的一种语音识别和数字人共语手势生成方法，其特征在于，所述步骤一中，所述语音识别采用自动语音识别技术进行语音识别，将人类语音转换为文本。

3.根据权利要求2所述的一种语音识别和数字人共语手势生成方法，其特征在于，所述步骤二中，所述文本分析基于自然语言处理技术对文本进行分析，其用于匹配预置的数字人动作库中的基准动作。

4.根据权利要求3所述的一种语音识别和数字人共语手势生成方法，其特征在于，所述步骤二中，所述文本分析获取基准动作包括：

5.根据权利要求4所...

【技术特征摘要】

1.一种语音识别和数字人共语手势生成方法，其特征在于，该方法包括：

4.根据权利要求3所述的一种语音识别和数字人共语手势生成方法，其特征在于，所述步骤二中，所述文本分析获取基准动作包括：

5.根据权利要求4所述的一种语音识别和数字人共语手势生成方法，其特征在于，所述近义词的生成采用synonyms工具，对带有情感色彩的主观性文本进行推理和分析采用fasttext或bilstm+attention算法。

6.根据权利要求2所述的一种语音识别和数字人共语手势生成方法，其特征在于，所述步骤三中，语音到手势动作生成使用的模型采用生成式对抗网络的结构，并增加了一个l1回归损失实现生产动作的连续性。

【专利技术属性】
技术研发人员：陈金，满昊扬，陈硕，李响，范顺国，张渊佳，侯圣文，
申请(专利权)人：天翼云科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人