一种个性化的三维数字人全息互动形成系统及方法技术方案

技术编号：40350871 阅读：6 留言：0更新日期：2024-02-09 14:35

本发明专利技术公开了一种个性化的三维数字人全息互动形成系统及方法，呈现交互模块接收用户的请求信息。模型生成模块对目标人物进行三维个性化形象建模。语音识别模块对用户进行情绪识别，将语音交互信息转变为相应的文本。对话生成模块生成相应的对话交互文本。语音生成模块合成语音回复对话音频。动作生成模块生成唇行音同步的三维虚拟化形象姿态模型。呈现交互模块通过终端设备呈现三维虚拟化形象姿态，与用户语音交互。本发明专利技术进一步丰富和生动反映虚拟化对象的特性、行为习惯和对话特征，使得虚拟数字人成为一个更加个性化和亲近的伙伴，让现实世界的用户能够沉浸式享受虚实交互带来的真实感。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于计算机，更进一步涉及计算机视觉中的一种个性化的三维数字人全息互动形成系统及方法。本专利技术可用于实现个性化三维虚拟化形象全息投影系统与用户进行实时语音对话互动，实现对用户的陪伴。

技术介绍

1、随着元宇宙的发展，人们将全息投影技术与ai数字人技术结合，实现三维虚拟化形象全息投影系统与用户进行实时语音对话互动，打破虚拟世界与现实世界的壁垒，增强数字人的交互和呈现能力，让现实世界的用户能够沉浸式享受虚实交互带来的真实感，实现虚拟陪伴。

2、捷开通讯(深圳)有限公司在其申请的专利文献“一种基于混合现实技术实现陪伴的方法及装置”(专利申请号：cn 201611036528.x，申请公布号：cn 106775198 a)中提出了一种基于混合现实技术实现陪伴的方法及装置。该装置包括模型建立模块、数据库模块、接收模块、处理模块和呈现模块共五个模块。该装置的模型建立模块用于生成所述人物的虚拟模型。该装置的数据库模块，用于建立所述行为、反应数据进而得到所述虚拟化对象对应行为反应的所述数据库。该装置的接收模块用于接收用户召唤人物的召唤指令及交互指令。该装置的处理模块用于当接收到所述召唤指令后，去匹配所述召唤人物对应的虚拟模型，以及当接收到所述用户的交互指令后，去匹配所述交互指令对应的所述人物的对应行为数据。该装置的呈现模块用于采用激光全息投影技术以所述行为数据更新所述人物的呈现，并以所述行为、反应数据更新所述人物的呈现。该方法使用混合现实技术，通过现实人和虚拟世界的交互，虽然有效提高交互的效率和效果，但是，该装置存在的不足

3、北京松果电子有限公司在其申请的专利文献“语音交互方法及装置、电子设备”(专利申请号：cn 202110760477.x，申请公布号：cn 113452853 a)中提出了于一种语音交互方法及装置、电子设备。该方法首先获取用户的生理特征信息，并根据所述用户生理特征信息确定三维虚拟人物，通过形象决策模型确定与所述用户生理特征信息对应的三维虚拟人物，再由接收模块接收用户的语音信息，然后通过姿态决策模型确定与所述用户语音信息对应的预测信息，该所述预测信息用于确定与用户进行交互的三维虚拟人物的姿态，最后通过呈现模块的所述终端设备的显示装置呈现三维虚拟人物的姿态。该方法对用户形象进行建模得到三维虚拟人物和现实用户进行语言交互，并可在显示装置上呈现三维虚拟人物及其动作，丰富了用户与终端设备之间交互的内容，更加生动形象。但是，该方法仍然存在的不足之处是：该方法所确定的三维虚拟人物是基于用户的生理特征信息，无法实现个性化的三维虚拟人物建模，无法满足用户的多样化需求。该方法所使用的语音合成使得所述虚拟化对象对话机械、木讷，并与真实人声相似度较低，降低了用户沉浸式享受虚实交互带来的真实感。

技术实现思路

1、本专利技术的目的在于针对上述现有技术的不足，提出一种个性化的三维数字人全息互动形成系统方法。用于解决模型建立采集数据不完整、无法实现个性化三维虚拟化物建模和语音交互中真实人声相似度较低的问题

2、实现本专利技术目的的技术思路是：本专利技术为采集目标对象的照片、视频和对话音频等特征信息数据，提取所述虚拟化对象的外形数据、口唇运动数据、面部表情数据、动作行为数据和对话音色及对话特征数据等数据，然后根据用户请求信息中的建模要求和实际特征信息数据，对目标人物进行三维虚拟化形象个性化建模，满足用户的多样化需求。再根据用户请求信息中的语音交互信息，对用户进行情绪识别，将语音交互信息转变为相应的文本。随后根据用户情绪和文本内容涵义模拟虚拟化形象与用户的对话场景，生成虚拟化形象的对话交互文本。再根据虚拟化形象的对话音色及对话特征数据和对话交互文本，合成带有目标人物独特音色和说话风格的语音回复对话音频。再根据语音回复对话音频生成唇行音高度同步的三维虚拟化形象姿态模型，将唇行音高度同步的三维虚拟化形象姿态模型发送给呈现交互模块，进一步丰富和深化虚拟化对象的形象和特征，更准确、生动地反映虚拟化对象的特性和行为习惯。最后通过终端设备呈现唇行音高度同步的三维虚拟化形象姿态，与用户语音交互。

3、本专利技术的系统，包括模型生成模块、语音识别模块、对话生成模块、语音生成模块、动作生成模块、呈现交互模块；其中：

4、所述的模型生成模块，用于根据用户请求信息中的建模要求，对目标人物进行三维虚拟化形象个性化建模；

5、所述的语音识别模块，用于根据用户请求信息中的语音交互信息，对用户进行情绪识别，将语音交互信息转变为相应的文本，将文本发送给对话生成模块；

6、所述的对话生成模块，用于根据用户情绪和文本内容涵义模拟虚拟化形象与用户的对话场景，生成虚拟化形象的对话交互文本，将对话交互文本发送给语音合成模块；

7、所述的语音合成模块，用于根据虚拟化形象的对话音色及对话特征数据和对话交互文本，合成带有目标人物独特音色和说话风格的语音回复对话音频，将语音回复对话音频发送给动作生成模块；

8、所述的动作生成模块，用于根据语音回复对话音频生成唇行音高度同步的三维虚拟化形象姿态模型，将唇行音高度同步的三维虚拟化形象姿态模型发送给呈现交互模块；

9、所述的呈现交互模块，用于接收用户对目标人物的请求信息，通过终端设备呈现唇行音高度同步的三维虚拟化形象姿态，与用户语音交互。

10、本专利技术互动形成方法的具体步骤包括如下：

11、步骤1，接收用户对目标人物的请求信息；

12、步骤2，模型生成模块根据用户请求信息中的建模要求，对目标人物进行三维虚拟化形象个性化建模；

13、步骤3，语音识别模块根据用户请求信息中的语音交互信息，对用户进行情绪识别，将语音交互信息转变为相应的文本；

14、步骤4，对话生成模块根据用户情绪和文本内容涵义模拟虚拟化形象与用户的对话场景，生成虚拟化形象的对话交互文本；

15、步骤5，语音合成模块根据虚拟化形象的对话音色及对话特征数据和对话交互文本，合成带有目标人物独特音色和说话风格的语音回复对话音频；

16、步骤6，动作生成模块根据语音回复对话音频生成唇行音高度同步的三维虚拟化形象姿态模型；

17、步骤7，呈现交互模块通过终端设备呈现唇行音高度同步的三维虚拟化形象姿态，与用户语音交互；

18、本专利技术与现有技术相比，具有如下优点：

19、第一，由于本专利技术的系统使用的模型生成模块，通过所述虚拟化对象的照片、视频和对话音频等实际特征信息数据，采集了所述虚拟化对象的外形数据、口唇运动数据、面部表情数据、动作行为数据、语音对话音色和对话特征数据等数据，克服了现有技术中单本文档来自技高网...

【技术保护点】

1.一种个性化的三维数字人全息互动形成系统，包括语音识别模块、动作生成模块、呈现交互模块，其特征在于，还包括模型生成模块、对话生成模块、语音合成模块；其中：

2.根据权利要求1所述系统的一种个性化的三维数字人全息互动形成方法，其特征在于，通过对三维虚拟化形象个性化建模，利用数据库中目标人物的对话音频，提取目标人物的对话音色及对话特征数据，合成带有目标人物独特音色和说话风格的语音回复对话音频，与用户进行投影交互；该互动形成方法的具体步骤包括如下：

3.根据权利要求2所述的一种个性化的三维数字人全息互动形成方法，其特征在于，步骤1中所述请求信息指的是，包括呈现接收模块接收的用户对目标人物的建模要求、语音交互信息和采集的目标人物的照片、视频和对话音频，其中从采集的目标人物的照片和视频中提取外形数据、口唇运动数据、面部表情数据、动作行为数据四大个体特征数据；从目标人物的对话音频中提取语音对话音色和对话特征数据。

4.根据权利要求2所述的一种个性化的三维数字人全息互动形成方法，其特征在于，步骤2中所述个性化建模指的是，模型生成模块根据四大个体特征数据中的

5.根据权利要求2所述的一种个性化的三维数字人全息互动形成方法，其特征在于，步骤3中所述的情绪识别指的是，语音识别模块通过提取语音交互信息的语言特征和声学特征确定用户的情绪状态，其中语言特征指的是语音交互信息所要表达的言语信息，声学特征包含用户语音交互信息中的语气、语调和感情色彩。

6.根据权利要求2所述的一种个性化的三维数字人全息互动形成方法，其特征在于，步骤3中所述的语音交互信息转变为相应的文本指的是，语音识别模块将语音交互信息的声音信号映射至文本序列完成语音交互信息转变为相应的文本，其中文本序列是指一组由文本字符、词汇或符号按照线性从左到右顺序排列组成的文本表示，代表语音交互信息中所包含的信息。

7.根据权利要求2所述的一种个性化的三维数字人全息互动形成方法，其特征在于，步骤4中所述的生成虚拟化形象的对话交互文本的步骤如下：

8.根据权利要求2所述的一种个性化的三维数字人全息互动形成方法，其特征在于，步骤5中所述的合成带有目标人物独特音色和说话风格的语音对话音频指的是，语音合成模块通过采集目标人物的对话语音样本训练一个可捕捉目标人物声纹特征的声纹合成模型，并使用一个将输入的文本转化为语音的文本到语音合成模型，最后根据声纹合成模型中得到的目标人物的声纹特征微调文本到语音合成模型参数，合成带有目标人物独特音色和说话风格的语音回复对话音频，其中声纹特征至少包括对话音频信号的频谱、倒频谱、共振峰、基音、反射系数五大基本特征。

9.根据权利要求2所述的一种个性化的三维数字人全息互动形成方法，其特征在于，步骤6中所述的生成唇行音高度同步的三维虚拟化形象模型指的是，动作生成模块根据四大个体特征数据中的口唇运动数据、面部表情数据、动作行为数据，分析动作行为数据，生成与语音回复对话音频信号相应的动作，采用唇音同步模型，分析口唇运动数据和面部表情数据实现高精度的唇音同步，得到唇行音高度同步的三维虚拟化形象模型。

10.根据权利要求2所述的一种个性化的三维数字人全息互动形成方法，其特征在于，步骤7中所述的终端设备指的是，采用全息投影技术呈现唇行音同步的三维虚拟化形象姿态，语音播报虚拟化形象对用户的语音回复对话音频，其中三维虚拟化形象姿态至少包括三维虚拟化形象的面部表情、四肢行为动作、口唇动作、头部动作中的一种。

...

【技术特征摘要】

4.根据权利要求2所述的一种个性化的三维数字人全息互动形成方法，其特征在于，步骤2中所述个性化建模指的是，模型生成模块根据四大个体特征数据中的外形数据、面部表情数据、动作行为数据，在使用通用的人体参数化模型smpl中加入目标人物的个体特征数据，并根据用户建模要求和选择的场景，实现对目标人物进行三维虚拟化形象个性化建模。

6.根据权利要求2所述的一种个性化的三维数字人全息互动形成方法，其特征在于，步骤3中所述的语音交互信息转变...

【专利技术属性】
技术研发人员：惠一龙，殷圣，
申请(专利权)人：西安电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人