System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种语义强相关的3D数字人动作生成方法及系统技术方案_技高网

一种语义强相关的3D数字人动作生成方法及系统技术方案

技术编号:40874083 阅读:4 留言:0更新日期:2024-04-08 16:42
本发明专利技术公开了一种语义强相关的3D数字人动作生成方法及系统,方法包括:对输入文本进行预处理,得到文本对应的音频、关键词序列以及文本中每个词的词时间戳;基于基底动作生成模型生成与音频对应的基底动作序列;将关键词序列中的关键词与动作序列数据库中的语义进行搜索匹配,计算每个关键词对应的动作序列,得到关键词—动作字典;将每个词的词时间戳、关键词—动作字典按照时间顺序融合到基底动作序列中,输出语义强相关的3D数字人动作序列。本发明专利技术生成的3D数字人的动作更加自然生动,且满足3D数字人与用户实时交互的需求。

【技术实现步骤摘要】

本专利技术涉及3d数字人,更具体的说是涉及一种语义强相关的3d数字人动作生成方法及系统。


技术介绍

1、随着元宇宙的盛行,虚拟形象、数字人等相关的应用越来越广泛。传统的驱动3d数字人的方式可以分为两种,一种为通过动作捕捉的方式将真人的动作映射到3d数字人身上,另一种为通过动画师将动作一帧一帧的人工制作出来。

2、然而在实时的交互需求下,不论是动作捕捉还是人工制作动画都无法满足用户对于3d数字人实时性和自然性的需求,且传统方法具有较高的人力成本,不够自动化。

3、因此,如何提供一种语义强相关的3d数字人动作生成方法及系统以实现实时性和自然性的要求是本领域技术人员亟需解决的问题。


技术实现思路

1、有鉴于此,本专利技术提供了一种语义强相关的3d数字人动作生成方法及系统,生成的3d数字人的动作更加自然生动,且满足3d数字人与用户实时交互的需求。

2、为了实现上述目的,本专利技术采用如下技术方案:

3、一种语义强相关的3d数字人动作生成方法,包括:

4、对输入文本进行预处理,得到文本对应的音频、关键词序列以及文本中每个词的词时间戳;

5、基于基底动作生成模型生成与音频对应的基底动作序列;

6、将关键词序列中的关键词与动作序列数据库中的语义进行搜索匹配,计算每个关键词对应的动作序列,得到关键词—动作字典;

7、将每个词的词时间戳、关键词—动作字典按照时间顺序融合到基底动作序列中,输出语义强相关的3d数字人动作序列。

8、优选地,对输入文本进行预处理,得到文本对应的音频、关键词序列以及文本中每个词的词时间戳,具体包括:

9、通过文本转语音算法将文本转换为音频,并同时生成字时间戳;

10、将文本按照关键词进行拆分得到关键词序列;

11、对关键词序列进行分词得到词出现的顺序,并结合字时间戳计算得到词时间戳。

12、优选地,基于基底动作生成模型生成与音频对应的基底动作序列,具体包括:

13、音频编码器提取音频每一帧的梅尔频谱的对数振幅和每一帧的能量作为音频的初始特征向量,其中,n表示音频帧数;

14、将初始特征向量进行压缩处理后输出长度为n的特征向量序列;

15、特征向量序列通过动作生成器输出基底动作序列。

16、优选地,将每个词的词时间戳、关键词—动作字典按照时间顺序融合到基底动作序列中,输出语义强相关的3d数字人动作序列,具体包括:

17、对应每个词的词时间戳将基底动作序列中的动作替换为关键词-动作字典中的动作;

18、通过动作优化模型将替换后不自然的动作优化为自然的动作,输出语义强相关的3d数字人动作序列。

19、优选地,动作优化模型损失函数l为:

20、

21、其中,如果,则,否则,指模型预测的动作序列,指对应的标签,x指随机选择的x帧,t指动作序列的总帧数,为权重系数。

22、一种语义强相关的3d数字人动作生成系统,包括:

23、数据预处理模块:用于对输入文本进行预处理,得到文本对应的音频、关键词序列以及文本中每个词的词时间戳;

24、基底动作生成模块:用于基于基底动作生成模型生成与音频对应的基底动作序列;

25、动作匹配模块:用于将关键词序列中的关键词与动作序列数据库中的语义进行搜索匹配,计算每个关键词对应的动作序列,得到关键词—动作字典;

26、动作融合模块:用于将每个词的词时间戳、关键词—动作字典按照时间顺序融合到基底动作序列中,输出语义强相关的3d数字人动作序列。

27、优选地,数据预处理模块包括文本转语音模块和文本分词模块;

28、文本转语音模块:用于通过文本转语音算法将文本转换为音频,并同时生成字时间戳;

29、文本分词模块:用于将文本按照关键词进行拆分得到关键词序列;以及对关键词序列进行分词得到词出现的顺序,并结合字时间戳计算得到词时间戳。

30、优选地,基底动作生成模块包括音频编码模块和动作生成模块;

31、音频编码模块用于基于音频编码器提取音频每一帧的梅尔频谱的对数振幅和每一帧的能量作为音频的初始特征向量,其中,n表示音频帧数;

32、以及将初始特征向量进行压缩处理后输出长度为n的特征向量序列;

33、动作生成模块用于将特征向量序列通过动作生成器输出基底动作序列。

34、优选地,动作融合模块包括动作预处理模块和动作优化模块;

35、动作预处理模块用于对应每个词的词时间戳将基底动作序列中的动作替换为关键词-动作字典中的动作;

36、动作优化模块用于通过动作优化模型将替换后不自然的动作优化为自然的动作,输出语义强相关的3d数字人动作序列。

37、优选地,动作优化模型损失函数l为:

38、

39、其中,如果,则,否则,指模型预测的动作序列,指对应的标签,x指随机选择的x帧,t指动作序列的总帧数,为权重系数。

40、经由上述的技术方案可知,与现有技术相比,本专利技术公开提供了一种语义强相关的3d数字人动作生成方法及系统,具有以下优点:

41、1)本专利技术生成的动作同时具有与音频节奏对齐的特征和更强的语义相关性。当前许多方法也能做到语义相关性,但无法同时保证具有节奏性。本方法是在基底动作的基础上插入包含语义信息的动作,并融合优化,其中基底动作具有与音频相关的节奏性,而插入的动作具有强语义相关性,这使得3d数字人的动作更加自然生动。

42、2)本专利技术具有扩展性。用户可以自定义动作序列数据库,且可以随时加入新的语义和对应的动作以提高动作的多样性,增加的内容并不会影响原有的内容,对系统整体也没有影响。

43、3)本方法具有实时性。当前许多动作生成相关的方法需要较长的推理时间,无法满足3d数字人与用户实时交互的需求。而基于上述的对本方法的各个模块的描述可以看出,本方法用到的所有网络结构均属于轻量的网络结构,且动作匹配模块和基底动作生成模块的工作是并行的,这使得本方法的推理速度快,能够满足实时交互的需求。

44、4)本专利技术具有便捷性。本专利技术中的系统在实际使用时,仅需输入文本内容,即可直接得到语义强相关的动作序列,对于使用者来说十分方便快捷。

本文档来自技高网...

【技术保护点】

1.一种语义强相关的3D数字人动作生成方法,其特征在于,包括:

2.根据权利要求1所述的一种语义强相关的3D数字人动作生成方法,其特征在于,对输入文本进行预处理,得到文本对应的音频、关键词序列以及文本中每个词的词时间戳,具体包括:

3.根据权利要求1所述的一种语义强相关的3D数字人动作生成方法,其特征在于,基于基底动作生成模型生成与音频对应的基底动作序列,具体包括:

4.根据权利要求1所述的一种语义强相关的3D数字人动作生成方法,其特征在于,将每个词的词时间戳、关键词—动作字典按照时间顺序融合到基底动作序列中,输出语义强相关的3D数字人动作序列,具体包括:

5.根据权利要求4所述的一种语义强相关的3D数字人动作生成方法,其特征在于,动作优化模型损失函数L为:

6.一种语义强相关的3D数字人动作生成系统,其特征在于,包括:

7.根据权利要求6所述的一种语义强相关的3D数字人动作生成系统,其特征在于,数据预处理模块包括文本转语音模块和文本分词模块;

8.根据权利要求6所述的一种语义强相关的3D数字人动作生成系统,其特征在于,基底动作生成模块包括音频编码模块和动作生成模块;

9.根据权利要求6所述的一种语义强相关的3D数字人动作生成系统,其特征在于,动作融合模块包括动作预处理模块和动作优化模块;

10.根据权利要求9所述的一种语义强相关的3D数字人动作生成系统,其特征在于,动作优化模型损失函数L为:

...

【技术特征摘要】

1.一种语义强相关的3d数字人动作生成方法,其特征在于,包括:

2.根据权利要求1所述的一种语义强相关的3d数字人动作生成方法,其特征在于,对输入文本进行预处理,得到文本对应的音频、关键词序列以及文本中每个词的词时间戳,具体包括:

3.根据权利要求1所述的一种语义强相关的3d数字人动作生成方法,其特征在于,基于基底动作生成模型生成与音频对应的基底动作序列,具体包括:

4.根据权利要求1所述的一种语义强相关的3d数字人动作生成方法,其特征在于,将每个词的词时间戳、关键词—动作字典按照时间顺序融合到基底动作序列中,输出语义强相关的3d数字人动作序列,具体包括:

5.根据权利要求4所述的一种语义强相关的3d数字...

【专利技术属性】
技术研发人员:陈靖涵张鹏飞苏江
申请(专利权)人:暗物智能科技广州有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1