基于集成学习的多模态融合视线估计框架制造技术

技术编号：32122817 阅读：72 留言：0更新日期：2022-01-29 19:09

本发明专利技术提供一种基于集成学习的多模态融合视线估计框架，包括如下步骤：进行特征提取，分别对摄像头下的视频信息和对应音频中的信息进行提取；采用多模态Transformer进行特征融合，在减少了参数的同时提取了更多的信息；使用集成学习组合多个个体学习模型，提高预测准确率。该基于集成学习的多模态融合视线估计框架具有的优点如下：(1)使用更高效的LMF

全部详细技术资料下载

【技术实现步骤摘要】
基于集成学习的多模态融合视线估计框架

[0001]本专利技术具体涉及一种基于集成学习的多模态融合视线估计框架。

技术介绍

[0002]目前越来越多的领域开始关注视线估计在VR、自动驾驶、自闭症儿童的检测与诊断等方面的应用。在群体交流中，说话者的面部表情、说话者的顺序、群体中的眼神交流均会吸引他人的视线。然而，传统的几何方法主要是根据眼睛的位置特征，比如眼角、瞳孔位置等关键点，来确定视线落点，虽然准确率高，但是对图片的分辨率也要求很高，而实际应用中高分辨率图片获取的成本很高。利用一个头戴式相机来追踪眼睛关键点位置(虹膜和瞳孔)，需要高清摄像头来获取高分辨率图像和大量的红外LED来追踪眼睛关键点，不仅成本高，还会对眼睛造成伤害。如果直接学习一个将眼睛外观映射到视线的模型，这种方法可以弥补上述方法的缺陷，但也带来了新的问题：需要大量的图片来参与训练，并且容易出现过拟合的问题。这些方法都有一个共同特点:只利用了单一的图片信息或者视频信息来预测视线落点，忽略了语言和眼神之间的联系，但是，已经有研究表明，在群体交流中，人们通常注视着说话者，说话者也会轮流注视其他人。目前针对视线估计的研究忽略了视频和音频之间的关系，无法充分利用多模态信息，不能很好的进行视线预测。通过简单的信息融合方式混合处理视频和音频信息，会使得模型混淆视频和音频信息，出现视频信息和音频信息无法匹配的情况，使得模型难以分辨出视频和音频各自的信息，导致预测结果非常差，模型收敛性弱。

技术实现思路

[0003]本专利技术的目的在于针对现有技术的不足，...

【技术保护点】

【技术特征摘要】
1.一种基于集成学习的多模态融合视线估计框架，其特征在于，包括如下步骤：进行特征提取，分别对摄像头下的视频信息和对应音频中的信息进行提取；采用多模态Transformer进行特征融合，在减少了参数的同时提取了更多的信息；使用集成学习组合多个个体学习模型，提高预测准确率。2.根据权利要求1所述的基于集成学习的多模态融合视线估计框架，其特征在于，具体包括如下步骤：S1：使用开源机器学习库dlib和基于目标检测的预训练模型获得视频中说话者的面部特征；S2：使用梅尔频率倒谱系数进行语音特征提取；S3：对多模态信息进行融合，利用Transformer with Low
‑
rank Multimodal Fusion针对群体中的每个个体分别构建学习模型；S4：使用集成学习将多个个体学习器组合成一个预测准确率更高、鲁棒性更好的强学习器。3.根据权利要求2所述的基于集成学习的多模态融合视线估计框架，其特征在于，使用开源机器学习库dlib和基于目标检测的预训练模型获得视频中说话者的面部特征的步骤具体如下：使用dlib和脸部识别框架OpenFace获得视频中包含的初级面部特征其中K代表视频中有K个检测目标，每个目标所得的特征是d维；针对p处的摄像头捕捉到的视频r，其捕捉到的脸部图像特征就是：脸部偏移特征就是脸部描述特征就是：其中，p表示四个摄像头的位置，故p的取值为1，2，3，4；t
k
表示视频r的第K个10秒间隔；为有效防止信息丢失，通过resnet34、2D convolutional layer和max
‑
pooling layer进一步进行特征提取；对获取到的特征进行维度对齐，得到基于利用OpenFacek计算可得到10s内的脸部偏移量，即：然后再利用机器学习库dlib计算面部描述符得到三个脸部特征向量，分别是：4.根据权利要求3所述的基于集成学习的多模态融合视线估计框架，其特征在于，使用
梅尔频率倒谱系数进行语音特征提取的步骤具体如下：利用MFCC对音频进行数据增强，记作A
...

【专利技术属性】
技术研发人员：黄承浩，黄和金，王虓一，张瑞昌，李金豪，洪峰，王岩，张彦如，
申请(专利权)人：电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人