基于多模态信息输入生成虚拟人眼动轨迹的算法制造技术

技术编号：37580072 阅读：12 留言：0更新日期：2023-05-15 07:55

本发明专利技术公开了基于多模态信息输入生成虚拟人眼动轨迹的算法，当输入为文本、语音、图像或者是其中的两种或三种的组合时，虚拟人的眼神可以根据语义和视觉、语音的刺激而产生自然的动作，以更真实有效地模拟眼动。本发明专利技术全自动生成，无需人工；通过计算机视觉、听觉、多模态等技术的应用，使不同情景下虚拟人眼动序列生成所需的人力和时间大大降低。人的眼动的产生是多个模态信息刺激下产生的结果。通过对心理学中眼动规律的深刻总结，结合多模态的输入和刺激，利用算法生成虚拟人的眼动轨迹，使眼部动作更加真实自然。部动作更加真实自然。部动作更加真实自然。

全部详细技术资料下载

【技术实现步骤摘要】
基于多模态信息输入生成虚拟人眼动轨迹的算法

[0001]本专利技术涉及人工智能领域的“图像识别”、“语义匹配”、“多模态”等
，尤其是涉及一种基于多模态信息输入生成虚拟人眼动轨迹的算法。

技术介绍

[0002]目前工业界对虚拟人物眼部动作的刻画主要通过以下两种途径实现：第一种是基于动作捕捉，工作人员穿戴可以捕捉动作、表情的设备，通过对特定任务、特定场景的外部刺激做出反应，由硬件捕捉并记录实时的动作数据(包括眼动数据)，最后反应在虚拟人物上。第二种是基于动画制作，即在制作虚拟人时由相关的特效师和动画师通过专业的软件(如UE5)设计出虚拟人所有眼部动作的脚本，直接刻画眼部动作。
[0003]同时，在今年的顶会ISPN(2022)的论文中，杜克大学Eyesyn研究团队开发了一种虚拟眼睛，通过归纳总结心理学文献，自定义了眼动的规则和算法，模拟人类在文本阅读、面对面交流、观看图片、观看视频这四种情况下眼睛注视点的变化规律。在使用Eyesyn时，只要传入图片或者视频，算法就可以生成任意长度的眼动序列，一定程度上解决了眼动数据集较难获取的问题。
[0004]在现有的解决方案中，基于动作捕捉模拟虚拟人眼动的方法需要耗费大量的人力和时间，在这一环节中工作人员面临反复试验、采样的窘境，造成工作量和成本的增大；基于动画制作的方法同样需要开发人员对每一个业务都设计一套眼动的脚本。而通过算法进行眼动预测的技术可以大幅度减少这样重复的工作。
[0005]人眼动的产生是多个模态信息刺激下的结果。但是目前的眼动生成算法...

【技术保护点】

【技术特征摘要】
1.基于多模态信息输入生成虚拟人眼动轨迹的算法，其特征在于，当输入为文本、语音、图像或者是其中的两种或三种的组合时，虚拟人的眼神可以根据语义和视觉、语音的刺激而产生自然的动作，以更真实有效地模拟眼动。2.根据权利要求1所述的基于多模态信息输入生成虚拟人眼动轨迹的算法，其特征在于，所述算法具体包括如下步骤：S1：图像/视频主体识别：利用图像识别技术对图像/视频的画面进行主体识别，框定画面中的主体；S2：语音对应文本切割：首先利用TTS技术，将语音转换成文本；假设听觉刺激的最小单位是词语，对TTS得到的文本进行词语分割操作，将一句话分割为得到一连串的分词之后，得到听觉刺激序列；分词在句中出现的顺序就是听觉刺激在时间维度上的排列；S3：图文特征提取：将步骤S1和步骤S2和的视觉和听觉刺激进行编码；利用多模态预训练双塔模型的视觉和文本编码器，将第一步划分的所有主体和第二步获得的一系列分词进行编码，得到图像和分词的向量化表示；S4：对每个分词进行主体匹配：对于听到的每个分词，对应的注视点是画面里识别出的所有主体中与此分词相关性最高的主体；S5：生成虚拟人眼动坐标序列，添加符合人眼运动规律的扰动：传入一系列听觉刺激，利用步骤S1
‑
S4计算产生一系列注视点坐标；坐标的先后顺序就是眼睛注视点的变化顺序；同时对得到的每个注视点坐标采用高斯正态分布构造一系列噪声点控制注视点的变化，用于更真实地模拟人类的微小眼动；S6：将眼动序列应用在虚拟人模型上，视线眼动模拟：将输出的眼动坐标序列与虚拟人相关接口对接，使数据序列转化为虚拟人实际的瞳孔移动，体现出虚拟人的眼动效果；S7：利用真实眼动数据和主观测评得分测试模型效果。3.根据权利要求2所述的基于多模态信息输入生成虚拟人眼动轨迹的算法，其特征在于，步骤S1中的主体包括图像/视频中出现的物体以及所处的背景环境，每个识别出来的主体都是原始图像的一个子图，进行主体识别可以为视线提供潜在的落点，视线的潜在落点是所有识别出来的主体的中心位置。4.根据权利要求2所述的基于多模态信息输入生成虚拟人眼动轨迹的算法，其特征在于，步骤S3中的预训练双塔模型指的是文澜多模态预训练模型；该模型将MoCo方法融入到改进版的对比学习算法中，基于图像
‑
文本对之间的弱关联假设提出了双塔结构预训练模型；文澜多模态预训练模型是基于图像
‑
文本检索任务定义的，因此文澜多模态预训练模型训练时的目标是学习两种编码器，它们可以将图像和文本样本嵌入到相同的空间中，从而实现有效的图像
‑
文本检索；为了加强这种跨模态嵌入学习，文澜多模态预训练模型中引入了带有InfoNCE损失...

【专利技术属性】
技术研发人员：程信，宋睿华，吴晓雪，张宇尧，张登浩，孙浩，
申请(专利权)人：中国人民大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人