一种语音识别和数字人共语手势生成方法技术

技术编号:40934212 阅读:23 留言:0更新日期:2024-04-18 14:54
本发明专利技术公开了一种语音识别和数字人共语手势生成方法,该方法包括:步骤一:语音识别将语音转换为文本;步骤二:文本分析获取基准动作;步骤三:语音到手势动作生成。步骤一中,所述语音识别采用自动语音识别技术进行语音识别,将人类语音转换为文本。发明专利技术分析经过语音识别后的文本,匹配动作库中的动作作为基准动作,结合语音和初始动作,基于生成式对抗网络,生成手势动作的骨骼关键点,进而在数字人说话时驱动数字人的手势,基于语音生成的共语手势的PCK准确率更高,生成的数字人手势更有效的模拟了现实中人类演讲中的手势动作,耗费的人力低,且提高数字人动作的流畅性。

【技术实现步骤摘要】

本专利技术涉及人工智能,特别涉及一种语音识别和数字人共语手势生成方法


技术介绍

1、在现实的人类沟通中,手势和说话人语音往往是强相关的,手势信号是人类正常沟通的一部分,这在演讲中表现最为明显,随着现代生成式对抗网络的数字人的发展,数字人在进行讲话时会伴随着手势动作。

2、而现有的数字人在讲话时的手势动作,大多是由动作捕捉真人动作来驱动,也可以预定义动作动画,通过动作指令来驱动,通过动作捕捉驱动数字人动作需要耗费人力,无法大规模推广,且通过动作指令驱动数字人动作的问题是动作之间的过渡不自然,每个动作都需要经历初始状态、动作准备、比划、姿势保持、动作收回等一些列程式化的过程,显得比较机械,近年来也有研究通过ai模型来驱动数字人的动作,例如在《learningindividualstyles of conversational gesture》中的方法,该研究通过人类说话的视频数据建立语音与手势的关系,然后直接通过语音生成手势,但语音生成数字人手势关键点的正确率仍存在不足,本申请提出一种语音识别和数字人共语手势生成方法。


...

【技术保护点】

1.一种语音识别和数字人共语手势生成方法,其特征在于,该方法包括:

2.根据权利要求1所述的一种语音识别和数字人共语手势生成方法,其特征在于,所述步骤一中,所述语音识别采用自动语音识别技术进行语音识别,将人类语音转换为文本。

3.根据权利要求2所述的一种语音识别和数字人共语手势生成方法,其特征在于,所述步骤二中,所述文本分析基于自然语言处理技术对文本进行分析,其用于匹配预置的数字人动作库中的基准动作。

4.根据权利要求3所述的一种语音识别和数字人共语手势生成方法,其特征在于,所述步骤二中,所述文本分析获取基准动作包括:

5.根据权利要求4所...

【技术特征摘要】

1.一种语音识别和数字人共语手势生成方法,其特征在于,该方法包括:

2.根据权利要求1所述的一种语音识别和数字人共语手势生成方法,其特征在于,所述步骤一中,所述语音识别采用自动语音识别技术进行语音识别,将人类语音转换为文本。

3.根据权利要求2所述的一种语音识别和数字人共语手势生成方法,其特征在于,所述步骤二中,所述文本分析基于自然语言处理技术对文本进行分析,其用于匹配预置的数字人动作库中的基准动作。

4.根据权利要求3所述的一种语音识别和数字人共语手势生成方法,其特征在于,所述步骤二中,所述文本分析获取基准动作包括:

5.根据权利要求4所述的一种语音识别和数字人共语手势生成方法,其特征在于,所述近义词的生成采用synonyms工具,对带有情感色彩的主观性文本进行推理和分析采用fasttext或bilstm+attention算法。

6.根据权利要求2所述的一种语音识别和数字人共语手势生成方法,其特征在于,所述步骤三中,语音到手势动作生成使用的模型采用生成式对抗网络的结构,并增加了一个l1回归损失实现生产动作的连续性。

【专利技术属性】
技术研发人员:陈金满昊扬陈硕李响范顺国张渊佳侯圣文
申请(专利权)人:天翼云科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1