一种基于Transformer的音频驱动3D口型的方法技术

技术编号:40321412 阅读:34 留言:0更新日期:2024-02-09 14:17
本发明专利技术公开了一种基于Transformer的音频驱动3D口型的方法,包括以下步骤,步骤一,输入音频片段和文本信息,将音频和文本数据解析为情绪特征,步骤二,通过Transformer模型分析,在情绪特征输入到Transformer模型后,音频数据随之被输入到Transformer模型以对音频进行编码解码操作,步骤三,3D口型的初次定型,在将音频数据进行编码的过程中,将音频向量进行分割,通过单个向量,对3D口型进行初次定型,步骤四,3D口型的二次定型,分析音频数据中声音特征,对3D口型进行二次定型。本发明专利技术在实施的时候,通过对多种因素进行控制,从而对虚拟人物的口型进行建立,以使得虚拟人物的口型,与现实环境中的口型更加贴合,进而完成虚拟人物的创建。

【技术实现步骤摘要】

本专利技术涉及图像处理,具体涉及一种基于transformer的音频驱动3d口型的方法。


技术介绍

1、随着3d技术的发展,虚拟人物的功能也愈发完善。而在对3d人物进行创建的时候,对于虚拟人物的表情、动作、发音口型,均需要逐一创建,特别是对于一些音乐类的虚拟人物而言,3d口型的创建就显得格外重要。现有的3d人物的口型在创建的时候,大多是根据标准字段的发音进行创建,但在实际的发音过程中,3d口型受各种因素的影响,会有不同的变化,为此本申请提出了一种基于transformer的音频驱动3d口型的方法。


技术实现思路

1、为此,本专利技术提供一种基于transformer的音频驱动3d口型的方法,以解决现有技术中的上述问题。

2、为了实现上述目的,本专利技术提供如下技术方案:

3、根据本专利技术的第一方面,一种基于transformer的音频驱动3d口型的方法,包括以下步骤,

4、步骤一,输入音频片段和文本信息,将音频和文本数据解析为情绪特征,

5、步骤二,通过tra本文档来自技高网...

【技术保护点】

1.一种基于Transformer的音频驱动3D口型的方法,其特征在于,包括以下步骤,

2.根据权利要求1所述的一种基于Transformer的音频驱动3D口型的方法,其特征在于,所述情绪特征包括开心、平静、忧伤的特征。

3.根据权利要求2所述的一种基于Transformer的音频驱动3D口型的方法,其特征在于,所述声音特征为声音的音调。

4.根据权利要求3所述的一种基于Transformer的音频驱动3D口型的方法,其特征在于,所述3D口型的初次定型步骤具体包括以下步骤,

5.根据权利要求4所述的一种基于Transformer的音频驱动3...

【技术特征摘要】

1.一种基于transformer的音频驱动3d口型的方法,其特征在于,包括以下步骤,

2.根据权利要求1所述的一种基于transformer的音频驱动3d口型的方法,其特征在于,所述情绪特征包括开心、平静、忧伤的特征。

3.根据权利要求2所述的一种基于transformer的音频驱动3d口型的方法,其特征在于,所述声音特征为声音的音调。

4.根据权利要求3所述的一种基...

【专利技术属性】
技术研发人员:袁海杰
申请(专利权)人:小哆智能科技北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1