一种语音向具象化智能体三维图形流转化方法、设备及介质技术

技术编号：32664251 阅读：21 留言：0更新日期：2022-03-17 11:15

本发明专利技术公开了一种语音向具象化智能体三维图形流转化方法、设备及介质，其中方法包括：步骤1，对自然语音集合中每个音频帧，构建其与对应三维面部图形之间的映射关系，并存储映射关系集；步骤2，对需要转化的音频数据等间隔分帧处理得到音频帧序列，并在映射关系集检索音频帧对应的图形帧，再对得到的图形帧序列进行插值和平滑处理，得到最终的图形帧序列即可渲染为为具象化智能体动画。本发明专利技术不需要类似于深度学习的大量浮点数运算，不需要依赖独立图形处理器，降低了对硬件环境的要求，进而降低了部署成本，提高了适用范围。提高了适用范围。提高了适用范围。

全部详细技术资料下载

【技术实现步骤摘要】
一种语音向具象化智能体三维图形流转化方法、设备及介质

[0001]本专利技术属于具象化智能体
，具体涉及一种语音向具象化智能体三维图形流转化方法、设备及介质。

技术介绍

[0002]具象化智能体(Embodied Agent，EA)是计算机生成的具有类似卡通风格或拟人风格的人物形象，通常用于与人类的语言或非语言交流，一种图形化人机交互的形式，在不同的应用场景内也被称为虚拟人类(Virtual Human)、人物动画(Character Animation)等[1][2][10]。具象化智能体需要音频驱动，以一定的算法生成拟人说话的动画，该过程称为语音转动画(Speech To Animation)。
[0003]语音转动画尤其是语音转三维可变形脸部模型(3D Morphable Face Models)[8]在2017年左右才出现[9]。语音转动画属于虚拟人类生成领域(Person Generation)[9]，要求仅利用语音驱动二维或三维可变形脸部模型或全身模型做出逼近自然人的表情或动作(包括微表情或癖好动作)。
[00本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种语音向具象化智能体三维图形流转化方法，其特征在于，包括：步骤1，对自然语音集合中每个音频帧，构建其与对应三维面部图形之间的映射关系，并存储映射关系集；步骤2，对需要转化的音频数据等间隔分帧处理得到音频帧序列，并在映射关系集检索音频帧对应的图形帧，再对得到的图形帧序列进行插值和平滑处理，得到最终的图形帧序列即可渲染为具象化智能体动画。2.根据权利要求1所述的方法，其特征在于，采用字典树的方式存储映射关系集。3.根据权利要求2所述的方法，其特征在于，采用字典树的方式存储映射关系集的过程为：(1)建立空的键值表DTable，在其中插入自然语音集中所有语音帧和对应的图形帧，以语音帧为键，以图形帧为值；(2)建立只具有根节点的字典树Branch，令根节点的键值表为DTable，取根节点为当前节点cur，取序数i＝1；(3)如果当前节点cur的键值对数量不大于分枝阈值b
max
；(a)如果cur不是Branch的根节点，则取cur的父节点为cur；(b)否则退出过程；(4)依次取cur的键值对<key,value>；(a)对于每一个键key，取key的第i个字节x
i
，令(b)如果cur的分枝表中不具有键g，则创建一个以g为键，以空子节点为值的分枝，并取该分枝的子节点sub；否则直接取键g对应的子节点sub；(c)在sub中的键值表中插入键值对<key,value>；(5)取序数i＝i+2；依次取cur的子节点，以每个子节点为当前节点cur，从步骤(3)开始执行；最终得到的字典树Branch即为存储的映射关系集。4.根据权利要求3所述的方法，其特征在于，步骤2中所述在映射关系集检索音频帧对应的图形帧，具体检索过程为：(1)取字典树Branch的根节点为当前节点cur，取序数i＝1；(2)如果当前节点cur存在子节点，执行以下子步骤；否则执行步骤(3)；(a)取音频帧的第i个字节x
i
，令(b)在当前节点cur的分枝表中键值表为g的值，即子节点sub，如果搜索未果，返回空图形帧；否则取当前节点cur为子节点sub，i＝i+2，返回步骤(2)开始执行；(3)比较音频帧与当前节点cur键值表中所有键的欧式距离，找出距离最小的键对应的值，...

【专利技术属性】
技术研发人员：刘吉伟，吴笛，王晓东，张沅，
申请(专利权)人：长城信息股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人