本发明专利技术公开了一种语音识别和数字人共语手势生成方法,该方法包括:步骤一:语音识别将语音转换为文本;步骤二:文本分析获取基准动作;步骤三:语音到手势动作生成。步骤一中,所述语音识别采用自动语音识别技术进行语音识别,将人类语音转换为文本。发明专利技术分析经过语音识别后的文本,匹配动作库中的动作作为基准动作,结合语音和初始动作,基于生成式对抗网络,生成手势动作的骨骼关键点,进而在数字人说话时驱动数字人的手势,基于语音生成的共语手势的PCK准确率更高,生成的数字人手势更有效的模拟了现实中人类演讲中的手势动作,耗费的人力低,且提高数字人动作的流畅性。
【技术实现步骤摘要】
本专利技术涉及人工智能,特别涉及一种语音识别和数字人共语手势生成方法。
技术介绍
1、在现实的人类沟通中,手势和说话人语音往往是强相关的,手势信号是人类正常沟通的一部分,这在演讲中表现最为明显,随着现代生成式对抗网络的数字人的发展,数字人在进行讲话时会伴随着手势动作。
2、而现有的数字人在讲话时的手势动作,大多是由动作捕捉真人动作来驱动,也可以预定义动作动画,通过动作指令来驱动,通过动作捕捉驱动数字人动作需要耗费人力,无法大规模推广,且通过动作指令驱动数字人动作的问题是动作之间的过渡不自然,每个动作都需要经历初始状态、动作准备、比划、姿势保持、动作收回等一些列程式化的过程,显得比较机械,近年来也有研究通过ai模型来驱动数字人的动作,例如在《learningindividualstyles of conversational gesture》中的方法,该研究通过人类说话的视频数据建立语音与手势的关系,然后直接通过语音生成手势,但语音生成数字人手势关键点的正确率仍存在不足,本申请提出一种语音识别和数字人共语手势生成方法。
...
【技术保护点】
1.一种语音识别和数字人共语手势生成方法,其特征在于,该方法包括:
2.根据权利要求1所述的一种语音识别和数字人共语手势生成方法,其特征在于,所述步骤一中,所述语音识别采用自动语音识别技术进行语音识别,将人类语音转换为文本。
3.根据权利要求2所述的一种语音识别和数字人共语手势生成方法,其特征在于,所述步骤二中,所述文本分析基于自然语言处理技术对文本进行分析,其用于匹配预置的数字人动作库中的基准动作。
4.根据权利要求3所述的一种语音识别和数字人共语手势生成方法,其特征在于,所述步骤二中,所述文本分析获取基准动作包括:
5.根据权利要求4所...
【技术特征摘要】
1.一种语音识别和数字人共语手势生成方法,其特征在于,该方法包括:
2.根据权利要求1所述的一种语音识别和数字人共语手势生成方法,其特征在于,所述步骤一中,所述语音识别采用自动语音识别技术进行语音识别,将人类语音转换为文本。
3.根据权利要求2所述的一种语音识别和数字人共语手势生成方法,其特征在于,所述步骤二中,所述文本分析基于自然语言处理技术对文本进行分析,其用于匹配预置的数字人动作库中的基准动作。
4.根据权利要求3所述的一种语音识别和数字人共语手势生成方法,其特征在于,所述步骤二中,所述文本分析获取基准动作包括:
5.根据权利要求4所述的一种语音识别和数字人共语手势生成方法,其特征在于,所述近义词的生成采用synonyms工具,对带有情感色彩的主观性文本进行推理和分析采用fasttext或bilstm+attention算法。
6.根据权利要求2所述的一种语音识别和数字人共语手势生成方法,其特征在于,所述步骤三中,语音到手势动作生成使用的模型采用生成式对抗网络的结构,并增加了一个l1回归损失实现生产动作的连续性。
【专利技术属性】
技术研发人员:陈金,满昊扬,陈硕,李响,范顺国,张渊佳,侯圣文,
申请(专利权)人:天翼云科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。