基于多模态信息输入生成虚拟人眼动轨迹的算法制造技术

技术编号:37580072 阅读:12 留言:0更新日期:2023-05-15 07:55
本发明专利技术公开了基于多模态信息输入生成虚拟人眼动轨迹的算法,当输入为文本、语音、图像或者是其中的两种或三种的组合时,虚拟人的眼神可以根据语义和视觉、语音的刺激而产生自然的动作,以更真实有效地模拟眼动。本发明专利技术全自动生成,无需人工;通过计算机视觉、听觉、多模态等技术的应用,使不同情景下虚拟人眼动序列生成所需的人力和时间大大降低。人的眼动的产生是多个模态信息刺激下产生的结果。通过对心理学中眼动规律的深刻总结,结合多模态的输入和刺激,利用算法生成虚拟人的眼动轨迹,使眼部动作更加真实自然。部动作更加真实自然。部动作更加真实自然。

【技术实现步骤摘要】
基于多模态信息输入生成虚拟人眼动轨迹的算法


[0001]本专利技术涉及人工智能领域的“图像识别”、“语义匹配”、“多模态”等
,尤其是涉及一种基于多模态信息输入生成虚拟人眼动轨迹的算法。

技术介绍

[0002]目前工业界对虚拟人物眼部动作的刻画主要通过以下两种途径实现:第一种是基于动作捕捉,工作人员穿戴可以捕捉动作、表情的设备,通过对特定任务、特定场景的外部刺激做出反应,由硬件捕捉并记录实时的动作数据(包括眼动数据),最后反应在虚拟人物上。第二种是基于动画制作,即在制作虚拟人时由相关的特效师和动画师通过专业的软件(如UE5)设计出虚拟人所有眼部动作的脚本,直接刻画眼部动作。
[0003]同时,在今年的顶会ISPN(2022)的论文中,杜克大学Eyesyn研究团队开发了一种虚拟眼睛,通过归纳总结心理学文献,自定义了眼动的规则和算法,模拟人类在文本阅读、面对面交流、观看图片、观看视频这四种情况下眼睛注视点的变化规律。在使用Eyesyn时,只要传入图片或者视频,算法就可以生成任意长度的眼动序列,一定程度上解决了眼动数据集较难获取的问题。
[0004]在现有的解决方案中,基于动作捕捉模拟虚拟人眼动的方法需要耗费大量的人力和时间,在这一环节中工作人员面临反复试验、采样的窘境,造成工作量和成本的增大;基于动画制作的方法同样需要开发人员对每一个业务都设计一套眼动的脚本。而通过算法进行眼动预测的技术可以大幅度减少这样重复的工作。
[0005]人眼动的产生是多个模态信息刺激下的结果。但是目前的眼动生成算法往往只关注视觉模态的刺激。在杜克大学研究人员开发的算法中,人眼注视点的预测只基于图像或者视频,而忽视了实时语音等外界其他模态的刺激,使得开发出的眼动模型应用范围受限,且不够真实。而本申请的模型不仅关注视觉模态的刺激,同时关注听觉模态的刺激,在综合考虑视觉和听觉信息的情况下合成眼动轨迹。
[0006]虚拟人的动作表情往往存在不自然等问题,这在眼睛方面反映更加明显。眼睛是心灵的窗户,但现有的技术在模拟虚拟人眼动这一方面尚不完美。本专利结合心理学知识与研究,总结和提炼出人在眼动时的几种规律,辅以人工智能相关技术对眼动进行预测,能更真实有效地模拟眼动,使虚拟人更有真实自然的感觉。
[0007]公开于该
技术介绍
部分的信息仅仅旨在加深对本专利技术的总体
技术介绍
的理解,而不应当被视为承认或以任何形式暗示该信息构成已为本领域技术人员所公知的现有技术。

技术实现思路

[0008]本专利技术的目的在于提供一种基于多模态信息输入生成虚拟人眼动轨迹的算法,以解决现有技术中存在的问题。
[0009]为了实现上述目的,本专利技术采用以下技术方案:
[0010]本专利技术提供基于多模态信息输入生成虚拟人眼动轨迹的算法,当输入为文本、语
音、图像或者是其中的两种或三种的组合时,虚拟人的眼神可以根据语义和视觉、语音的刺激而产生自然的动作,以更真实有效地模拟眼动。
[0011]作为一种进一步的技术方案,基于多模态信息输入生成虚拟人眼动轨迹的算法具体包括如下步骤:
[0012]S1:图像/视频主体识别:利用图像识别技术对图像/视频的画面进行主体识别,框定画面中的主体;
[0013]S2:语音对应文本切割:首先利用TTS技术,将语音转换成文本;假设听觉刺激的最小单位是词语,对TTS得到的文本进行词语分割操作,将一句话分割为得到一连串的分词之后,得到听觉刺激序列;分词在句中出现的顺序就是听觉刺激在时间维度上的排列;
[0014]S3:图文特征提取:将步骤S1和步骤S2和的视觉和听觉刺激进行编码;利用多模态预训练双塔模型的视觉和文本编码器,将第一步划分的所有主体和第二步获得的一系列分词进行编码,得到图像和分词的向量化表示;
[0015]S4:对每个分词进行主体匹配:对于听到的每个分词,对应的注视点是画面里识别出的所有主体中与此分词相关性最高的主体;
[0016]S5:生成虚拟人眼动坐标序列,添加符合人眼运动规律的扰动:传入一系列听觉刺激,利用步骤S1

S4计算产生一系列注视点坐标;坐标的先后顺序就是眼睛注视点的变化顺序;同时在得到的每个注视点坐标采用高斯正态分布构造一系列噪声点控制注视点的变化,用于更真实地模拟人类的微小眼动;
[0017]S6:将眼动序列应用在虚拟人模型上,视线眼动模拟:将输出的眼动坐标序列与虚拟人相关接口对接,使数据序列转化为虚拟人实际的瞳孔移动,体现出虚拟人的眼动效果;
[0018]S7:利用真实眼动数据和主观测评得分测试模型效果。
[0019]作为一种进一步的技术方案,步骤S1中的主体包括图像/视频中出现的物体以及所处的背景环境,每个识别出来的主体都是原始图像的一个子图,进行主体识别可以为视线提供潜在的落点,视线的潜在落点是所有识别出来的主体的中心位置。
[0020]作为一种进一步的技术方案,步骤S3中的预训练双塔模型指的是文澜多模态预训练模型。该模型将MoCo方法融入到改进版的对比学习算法中,基于图像

文本对之间的弱关联假设提出了双塔结构预训练模型。文澜跨模式预训练模型是基于图像

文本检索任务定义的,因此文澜训练时的主要目标是学习两种编码器,它们可以将图像和文本样本嵌入到相同的空间中,从而实现有效的图像

文本检索。为了加强这种跨模态嵌入学习,文澜模型中引入了带有InfoNCE损失的对比学习。具体来说,对于给定的文本嵌入,文澜的学习目标是从一批图像嵌入中找到最佳的图像嵌入。同样,对于给定的图像嵌入,文澜的学习目标是从一批文本嵌入中找到最佳文本嵌入。总之,文澜预训练模型通过联合训练图像和文本编码器来学习跨模态的向量空间,以最大化每个样本中正确的图像和文本对的嵌入向量的余弦相似度,同时最小化其他错误图像和文本对嵌入向量的余弦相似度(如图2所示)。
[0021]作为一种进一步的技术方案,步骤S4具体为:通过步骤S3利用图文预训练模型获得了分词和图片主体的向量编码,在S4中可以选定一个相似度公式来计算图文向量之间的相似度,用于表示图文之间的相关性;
[0022]对于句子中的名词,对应的注视点就是图片中与此分词相关性最高的一个或多个主体的中心位置;对于句子中的代词、动词、形容词记为分词a,第一步要计算图片中与分词
a相关性最高的主体的中心位置,第二步要利用self

attention模型计算句子中与分词a关联度最大的其他分词,记为分词b;比较第一步计算得到的图文相关性和第二步self

attention计算得到的分词间相关性的大小,分词a对应的注视点坐标由相关性最高的主体的中心位置或者分词b对应的注视点坐标决定。
[0023]作为一种进一步的技术方案,步骤S5的具体算法为:传入一系列听觉刺激,利用步骤S1

S4计算产生一系列注视点坐标,坐标的先后顺序就是眼睛注视点的变化顺序;同时,考本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于多模态信息输入生成虚拟人眼动轨迹的算法,其特征在于,当输入为文本、语音、图像或者是其中的两种或三种的组合时,虚拟人的眼神可以根据语义和视觉、语音的刺激而产生自然的动作,以更真实有效地模拟眼动。2.根据权利要求1所述的基于多模态信息输入生成虚拟人眼动轨迹的算法,其特征在于,所述算法具体包括如下步骤:S1:图像/视频主体识别:利用图像识别技术对图像/视频的画面进行主体识别,框定画面中的主体;S2:语音对应文本切割:首先利用TTS技术,将语音转换成文本;假设听觉刺激的最小单位是词语,对TTS得到的文本进行词语分割操作,将一句话分割为得到一连串的分词之后,得到听觉刺激序列;分词在句中出现的顺序就是听觉刺激在时间维度上的排列;S3:图文特征提取:将步骤S1和步骤S2和的视觉和听觉刺激进行编码;利用多模态预训练双塔模型的视觉和文本编码器,将第一步划分的所有主体和第二步获得的一系列分词进行编码,得到图像和分词的向量化表示;S4:对每个分词进行主体匹配:对于听到的每个分词,对应的注视点是画面里识别出的所有主体中与此分词相关性最高的主体;S5:生成虚拟人眼动坐标序列,添加符合人眼运动规律的扰动:传入一系列听觉刺激,利用步骤S1

S4计算产生一系列注视点坐标;坐标的先后顺序就是眼睛注视点的变化顺序;同时对得到的每个注视点坐标采用高斯正态分布构造一系列噪声点控制注视点的变化,用于更真实地模拟人类的微小眼动;S6:将眼动序列应用在虚拟人模型上,视线眼动模拟:将输出的眼动坐标序列与虚拟人相关接口对接,使数据序列转化为虚拟人实际的瞳孔移动,体现出虚拟人的眼动效果;S7:利用真实眼动数据和主观测评得分测试模型效果。3.根据权利要求2所述的基于多模态信息输入生成虚拟人眼动轨迹的算法,其特征在于,步骤S1中的主体包括图像/视频中出现的物体以及所处的背景环境,每个识别出来的主体都是原始图像的一个子图,进行主体识别可以为视线提供潜在的落点,视线的潜在落点是所有识别出来的主体的中心位置。4.根据权利要求2所述的基于多模态信息输入生成虚拟人眼动轨迹的算法,其特征在于,步骤S3中的预训练双塔模型指的是文澜多模态预训练模型;该模型将MoCo方法融入到改进版的对比学习算法中,基于图像

文本对之间的弱关联假设提出了双塔结构预训练模型;文澜多模态预训练模型是基于图像

文本检索任务定义的,因此文澜多模态预训练模型训练时的目标是学习两种编码器,它们可以将图像和文本样本嵌入到相同的空间中,从而实现有效的图像

文本检索;为了加强这种跨模态嵌入学习,文澜多模态预训练模型中引入了带有InfoNCE损失...

【专利技术属性】
技术研发人员:程信宋睿华吴晓雪张宇尧张登浩孙浩
申请(专利权)人:中国人民大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1