一种基于大语言模型的手语数字人驱动方法及系统技术方案

技术编号:39243204 阅读:11 留言:0更新日期:2023-10-30 11:55
本发明专利技术属于虚拟数字人技术领域,涉及一种基于大语言模型的手语数字人驱动方法及系统,所述驱动方法包括:1)、获取目标语言并将其转化成文本;2)、通过训练后的大语言模型对文本进行处理,以生成手语词序列;3)、根据手语词序列分别获取一系列躯干动作数据和一系列面部表情动作数据并将它们分别按顺序进行排序;4)、对任意两个相邻的躯干动作数据分别进行数据拟合插值,以平滑它们对应的躯干动作之间的过渡动作;5)、根据一系列面部表情动作数据以及数据拟合插值处理后的一系列躯干动作数据,驱动手语数字人运行。本发明专利技术大大提高了虚拟数字人的智能交互体验,实现了更加全面、生动、准确的智能交互和手语表达能力。确的智能交互和手语表达能力。确的智能交互和手语表达能力。

【技术实现步骤摘要】
一种基于大语言模型的手语数字人驱动方法及系统


[0001]本专利技术属于虚拟数字人
,涉及一种手语数字人驱动方法及系统,尤其涉及一种基于大语言模型的手语数字人驱动方法及系统。

技术介绍

[0002]随着元宇宙的兴起,虚拟数字人技术受到了越来越多的关注,其背后更是涉及一系列先进的计算机技术,如计算机图形学、人工智能、虚拟现实和增强现实等。通过使用这些技术,虚拟数字人能够模拟人类的表情、动作和语音,与人类进行自然而流畅的互动,因此被广泛应用在直播、购物、客服等常见的场景中。
[0003]虽然虚拟数字人已经被广泛应用在了日常生活的场景中,但是虚拟手语数字人作为一种特殊应用却鲜有人去探索。虚拟手语数字人是一种基于计算机技术和人工智能的系统,旨在通过模拟手语动作和表情动作来与听觉障碍人士进行交流和沟通。虚拟手语数字人的核心功能是将用户的语言输入(例如文字、语音)转化为手语动作,以便与听觉障碍人士沟通。它能够识别并解释用户的指令、问题或对话内容,并通过预定义的手语词汇和动作库来生成对应的手语表达。这种技术使得听觉障碍人士能够通过观察虚拟手语数字人的手势和表情,理解和回应与他们进行交流的内容。
[0004]虚拟手语数字人的应用领域非常广泛。它可以应用于教育领域,为听觉障碍学生提供手语教学和辅助学习工具;在医疗领域,可以为医务人员和听觉障碍患者之间的沟通提供支持;在旅游和服务行业,可以为听觉障碍人士提供方便的信息交流和导航服务等。虚拟手语数字人的出现为听觉障碍人士提供了更多融入社会和获得信息的机会,促进了包容和无障碍交流的发展。
[0005]但是,现有的虚拟手语数字人往往存在语音理解能力差,难以将语音转化成准确的动作和表情,动作连贯性差等问题。
[0006]因此,针对上述现有技术中存在的缺陷,需要研发一种新型的手语数字人驱动方法及系统。

技术实现思路

[0007]为了克服现有技术的缺陷,本专利技术提出一种基于大语言模型的手语数字人驱动方法及系统,其大大提高了虚拟数字人的智能交互体验,实现了更加全面、生动、准确的智能交互和手语表达能力。
[0008]为了实现上述目的,本专利技术提供如下技术方案:一种基于大语言模型的手语数字人驱动方法,其特征在于,包括以下步骤:1)、获取目标语言并将目标语言转化成文本;2)、通过训练后的大语言模型对所述文本进行处理,以生成手语词序列;3)、根据所述手语词序列分别获取一系列躯干动作数据和一系列面部表情动作数据并将获得的所述一系列躯干动作数据和一系列面部动表情作数据分别按顺序进行排序;
4)、对所述一系列躯干动作数据中的任意两个相邻的躯干动作数据分别进行数据拟合插值,以平滑所述两个相邻的躯干动作数据对应的躯干动作之间的过渡动作;5)、根据所述一系列面部表情动作数据以及数据拟合插值处理后的一系列躯干动作数据,驱动所述手语数字人运行。
[0009]优选地,所述步骤3)中的根据所述手语词序列分别获取一系列躯干动作数据和一系列面部表情动作数据具体为:根据所述手语词序列从躯干动作数据库中检索得到所述一系列躯干动作数据并根据所述手语词序列从面部表情动作数据库中检索得到所述一系列面部表情动作数据,其中,所述躯干动作数据库中存储有手语词及其对应的躯干动作数据;所述面部表情动作数据库中存储有手语词及其对应的面部表情动作数据。
[0010]优选地,所述步骤4)中的对任意两个相邻的躯干动作数据分别进行数据拟合插值具体为:在前一个躯干动作数据的最后一帧和后一个躯干动作数据的第一帧之间插入多个插入帧,其中,基于插入帧的数量、前一个躯干动作数据的最后一帧中的位置以及后一个躯干动作数据的第一帧中的位置确定每个插入帧中的位置。
[0011]优选地,在所述步骤1)和步骤2)之间进一步包括:训练大语言模型,以获得所述训练后的大语言模型。
[0012]优选地,所述训练大语言模型具体包括:预训练大语言模型:将由目标语言转化成的文本作为输入提供给大语言模型,以对大语言模型进行预训练,从而得到预训练后的大语言模型;微调:将正常的对话语句文本及其对应的手语词序作为输入提供给预训练后的大语言模型,以对预训练后的大语言模型进行微调,从而得到所述训练后的大语言模型。
[0013]此外,本专利技术还提供一种基于大语言模型的手语数字人驱动系统,其特征在于,包括:声音拾取和转化模块,其用于获取目标语言并将目标语言转化成文本;训练后的大语言模型,其用于对所述文本进行处理,以生成手语词序列;躯干动作数据库,其存储有手语词及其对应的躯干动作数据;面部表情动作数据库,其存储有手语词及其对应的面部表情动作数据;躯干动作驱动模块,其用于基于所述手语词序列从所述躯干动作数据库中获得一系列躯干动作数据并将获得的所述一系列躯干动作数据按顺序进行排序;面部表情动作驱动模块,其用于基于所述手语词序列从所述面部表情动作数据库中获得一系列面部表情动作数据并将获得的所述一系列面部表情动作数据按顺序进行排序;躯干动作平滑模块,其用于对所述一系列躯干动作数据中的任意两个相邻的躯干动作数据分别进行数据拟合插值,以平滑所述两个相邻的躯干动作数据对应的躯干动作之间的过渡动作;数据通信模块,其用于将所述一系列面部表情动作数据以及数据拟合插值处理后的一系列躯干动作数据发送给手语数字人,以驱动所述手语数字人运行。
[0014]优选地,所述躯干动作平滑模块对所述一系列躯干动作数据中的任意两个相邻的躯干动作数据分别进行数据拟合插值具体为:在前一个躯干动作数据的最后一帧和后一个躯干动作数据的第一帧之间插入多个插入帧,其中,基于所述插入帧的数量、前一个躯干动
作数据的最后一帧中的位置以及后一个躯干动作数据的第一帧中的位置确定每个所述插入帧中的位置。
[0015]优选地,所述基于大语言模型的手语数字人驱动系统还包括:预训练后的大语言模型,其用于基于输入的所述文本输出对话反馈文本并将所述对话反馈文本交由所述数据通信模块向外传输。
[0016]优选地,所述基于大语言模型的手语数字人驱动系统还包括:音频输出模块,其用于接收所述数据通信模块传输过来的所述对话反馈文本并将所述对话反馈文本转化成语音后向外播放。
[0017]与现有技术相比,本专利技术的基于大语言模型的手语数字人驱动方法及系统具有如下有益技术效果中的一者或多者:1、本专利技术通过将语音对话转化为手语动作,从而打破语言壁垒,为无障碍沟通做出重要贡献,使得听觉障碍人士能够更好地融入社会发展。
[0018]2、本专利技术通过训练后的大语言模型的语言理解和生成能力,使得手语数字人能够更加准确、自然地理解用户的指令和意图,并通过国家通用手语动作将回答以视觉化的方式表达出来,为听觉障碍人士创造更好的沟通体验。
[0019]3、本专利技术的表情动作信息能够为手语数字人赋予更加丰富的表情表达能力,使其能够准确地传达情感、意图和语义。
[0020]4、本专利技术通过插帧操作,添加适当的中间动作帧,以使得两个手语词对应的躯干动作之间的过渡更加平滑和自然,可以避免躯干动作之间的跳跃本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于大语言模型的手语数字人驱动方法,其特征在于,包括以下步骤:1)、获取目标语言并将目标语言转化成文本;2)、通过训练后的大语言模型对所述文本进行处理,以生成手语词序列;3)、根据所述手语词序列分别获取一系列躯干动作数据和一系列面部表情动作数据并将获得的所述一系列躯干动作数据和一系列面部动表情作数据分别按顺序进行排序;4)、对所述一系列躯干动作数据中的任意两个相邻的躯干动作数据分别进行数据拟合插值,以平滑所述两个相邻的躯干动作数据对应的躯干动作之间的过渡动作;5)、根据所述一系列面部表情动作数据以及数据拟合插值处理后的一系列躯干动作数据,驱动所述手语数字人运行。2.根据权利要求1所述的基于大语言模型的手语数字人驱动方法,其特征在于,所述步骤3)中的根据所述手语词序列分别获取一系列躯干动作数据和一系列面部表情动作数据具体为:根据所述手语词序列从躯干动作数据库中检索得到所述一系列躯干动作数据并根据所述手语词序列从面部表情动作数据库中检索得到所述一系列面部表情动作数据,其中,所述躯干动作数据库中存储有手语词及其对应的躯干动作数据;所述面部表情动作数据库中存储有手语词及其对应的面部表情动作数据。3.根据权利要求2所述的基于大语言模型的手语数字人驱动方法,其特征在于,所述步骤4)中的对任意两个相邻的躯干动作数据分别进行数据拟合插值具体为:在前一个躯干动作数据的最后一帧和后一个躯干动作数据的第一帧之间插入多个插入帧,其中,基于插入帧的数量、前一个躯干动作数据的最后一帧中的位置以及后一个躯干动作数据的第一帧中的位置确定每个插入帧中的位置。4.根据权利要求3所述的基于大语言模型的手语数字人驱动方法,其特征在于,在所述步骤1)和步骤2)之间进一步包括:训练大语言模型,以获得所述训练后的大语言模型。5.根据权利要求4所述的基于大语言模型的手语数字人驱动方法,其特征在于,所述训练大语言模型具体包括:预训练大语言模型:将由目标语言转化成的文本作为输入提供给大语言模型,以对大语言模型进行预训练,从而得到预训练后的大语言模型;微调:将正常的对话语句文本及其对应的手语词...

【专利技术属性】
技术研发人员:吴熙王路路刘佳冉沿川王雪杨马梦瑶
申请(专利权)人:北京智谱华章科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1