基于集成学习的多模态融合视线估计框架制造技术

技术编号:32122817 阅读:72 留言:0更新日期:2022-01-29 19:09
本发明专利技术提供一种基于集成学习的多模态融合视线估计框架,包括如下步骤:进行特征提取,分别对摄像头下的视频信息和对应音频中的信息进行提取;采用多模态Transformer进行特征融合,在减少了参数的同时提取了更多的信息;使用集成学习组合多个个体学习模型,提高预测准确率。该基于集成学习的多模态融合视线估计框架具有的优点如下:(1)使用更高效的LMF

【技术实现步骤摘要】
基于集成学习的多模态融合视线估计框架


[0001]本专利技术具体涉及一种基于集成学习的多模态融合视线估计框架。

技术介绍

[0002]目前越来越多的领域开始关注视线估计在VR、自动驾驶、自闭症儿童的检测与诊断等方面的应用。在群体交流中,说话者的面部表情、说话者的顺序、群体中的眼神交流均会吸引他人的视线。然而,传统的几何方法主要是根据眼睛的位置特征,比如眼角、瞳孔位置等关键点,来确定视线落点,虽然准确率高,但是对图片的分辨率也要求很高,而实际应用中高分辨率图片获取的成本很高。利用一个头戴式相机来追踪眼睛关键点位置(虹膜和瞳孔),需要高清摄像头来获取高分辨率图像和大量的红外LED来追踪眼睛关键点,不仅成本高,还会对眼睛造成伤害。如果直接学习一个将眼睛外观映射到视线的模型,这种方法可以弥补上述方法的缺陷,但也带来了新的问题:需要大量的图片来参与训练,并且容易出现过拟合的问题。这些方法都有一个共同特点:只利用了单一的图片信息或者视频信息来预测视线落点,忽略了语言和眼神之间的联系,但是,已经有研究表明,在群体交流中,人们通常注视着说话者,说话者也会轮流注视其他人。目前针对视线估计的研究忽略了视频和音频之间的关系,无法充分利用多模态信息,不能很好的进行视线预测。通过简单的信息融合方式混合处理视频和音频信息,会使得模型混淆视频和音频信息,出现视频信息和音频信息无法匹配的情况,使得模型难以分辨出视频和音频各自的信息,导致预测结果非常差,模型收敛性弱。

技术实现思路

[0003]本专利技术的目的在于针对现有技术的不足,提供一种基于集成学习的多模态融合视线估计框架,该基于集成学习的多模态融合视线估计框架可以很好地解决上述问题。
[0004]为达到上述要求,本专利技术采取的技术方案是:提供一种基于集成学习的多模态融合视线估计框架,该基于集成学习的多模态融合视线估计框架包括如下步骤:进行特征提取,分别对摄像头下的视频信息和对应音频中的信息进行提取;采用多模态Transformer进行特征融合,在减少了参数的同时提取了更多的信息;使用集成学习组合多个个体学习模型,提高预测准确率。
[0005]该基于集成学习的多模态融合视线估计框架具有的优点如下:
[0006](1)使用更高效的LMF

MET框架处理视频和语音信息,使得模型可以完全利用视频信息和音频信息,并对多模态信息进行深入的交叉感知。
[0007](2)采取集成学习,利用多个个体学习器,将多个个体学习器结合成强的学习器,使得模型对数据的准确度得到了提升,并加快模型学习速度,从而提高视线估计预测效率。
附图说明
[0008]此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,在这
layer进一步进行特征提取;
[0022]对获取到的特征进行维度对齐,得到基于利用OpenFacek计算可得到10s内的脸部偏移量,即:然后再利用机器学习库dlib计算面部描述符得到三个脸部特征向量,分别是:
[0023]其中,步骤S2包括步骤:
[0024]利用MFCC对音频进行数据增强,记作A
r
,其维度为32维;
[0025]为了学习更多的全局特征,将p位置(四个摄像头的位置,取值1,2,3,4)的特征和其他特征以逆时针的方式连接,即:其他特征以逆时针的方式连接,即:
[0026]如图1所示,进一步拼接视频特征和音频特征,得到:
[0027][0028]进一步的是,所示步骤S3包括步骤,如图2所示:
[0029]使用一维卷积将平铺成其中T
F
,T
A
,T
V
,代表F、A、V卷积核的大小;
[0030]使用Low

rank Multimodal Fusion(LMF)对提取到的视频特征和音频特征进行特征融合,整体融合后的特征就是:F={F1,F2,...,F
R
},其中R代表记录的总数,记录r融合后的特征就是:
[0031]其中T
F
是融合后得到的特征F对应卷积核的大小;d
F
代表F的特征数;
[0032]为了训练过程中充分利用特征的时间序列,对融合后的特征F进行positional embedding,得到:
[0033][0034]同时将作为两个crossmodal transformer的输入,使用crossmodal attention将分别和连接得到增强后的特征F
A
,F
V
:
[0035][0036][0037]将两个增强后的特征连接起来得到:将其输入到Transformer,即可得到单个视线估计学习器;
[0038]其中,步骤S4包括步骤,如图3所示:
[0039]根据4个模型在验证集上的准确率,采用加权多数投票法来分配权重:其中,p
t,j
表示分类器t选择方向j的概率,T表示分类器的个数,即为4,C代表视线落点的方向数,即为3。
[0040]针对具有广泛应用的视线估计,现有技术采用单一图片信息或者视频信息进行建模,忽略了音频信息的作用,没有对多模态信息进行交叉感知。或使用简单的信息融合,使得模型混淆了视频信息和音频信息,预测效果非常差。本专利技术使用高效的LMF

MET框架处理包含头部运动、嘴部运动的视频信息和包含说话内容的音频信息,框架主体是transformer,输入视频和音频的特征后,该模型可以完全利用视频和音频之间的信息,并对多模态信息进行深入的交叉感知;同时,采用集成学习方法,利用多个若监督模型学习每个摄像头收集到的视频信息以及对于录音器收集到的音频信息,再利用软投票机制将个体学习器组合得到更好更全面的LMF

MET模型,使得模型的收敛速度比原始模型快了数倍,视线预测的准确率也增强了很多。因此本方案能够比较好地解决上述问题。
[0041]视线估计旨在确定视线方向及落点,其在多个领域如医疗、社交、VR等领域的应用越来越广泛,使得深入研究视线估计以提高其性能变得越来越重要。在专利技术中,本方案提出了一种新的方案LMF

MET,通过基于视频和语音的多模态信息以提高视线估计的准确度。该框架可以应用在其他用户各类交流信息场景中进行相关预测,如VR中的视线落点预测、自闭症儿童确诊辅助预测、手机屏幕解锁、短视频特效等。同时将集成学习应用到Multimodal Transformer(MulT)模型可以提高模型准确性、鲁棒性。
[0042]以上所述实施例仅表示本专利技术的几种实施方式,其描述较为具体和详细,但并不能理解为对本专利技术范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本专利技术构思的前提下,还可以做出若干变形和改进,这些都属于本专利技术保护范围。因此本专利技术的保护范围应该以所述权利要求为准。
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于集成学习的多模态融合视线估计框架,其特征在于,包括如下步骤:进行特征提取,分别对摄像头下的视频信息和对应音频中的信息进行提取;采用多模态Transformer进行特征融合,在减少了参数的同时提取了更多的信息;使用集成学习组合多个个体学习模型,提高预测准确率。2.根据权利要求1所述的基于集成学习的多模态融合视线估计框架,其特征在于,具体包括如下步骤:S1:使用开源机器学习库dlib和基于目标检测的预训练模型获得视频中说话者的面部特征;S2:使用梅尔频率倒谱系数进行语音特征提取;S3:对多模态信息进行融合,利用Transformer with Low

rank Multimodal Fusion针对群体中的每个个体分别构建学习模型;S4:使用集成学习将多个个体学习器组合成一个预测准确率更高、鲁棒性更好的强学习器。3.根据权利要求2所述的基于集成学习的多模态融合视线估计框架,其特征在于,使用开源机器学习库dlib和基于目标检测的预训练模型获得视频中说话者的面部特征的步骤具体如下:使用dlib和脸部识别框架OpenFace获得视频中包含的初级面部特征其中K代表视频中有K个检测目标,每个目标所得的特征是d维;针对p处的摄像头捕捉到的视频r,其捕捉到的脸部图像特征就是:脸部偏移特征就是脸部描述特征就是:其中,p表示四个摄像头的位置,故p的取值为1,2,3,4;t
k
表示视频r的第K个10秒间隔;为有效防止信息丢失,通过resnet34、2D convolutional layer和max

pooling layer进一步进行特征提取;对获取到的特征进行维度对齐,得到基于利用OpenFacek计算可得到10s内的脸部偏移量,即:然后再利用机器学习库dlib计算面部描述符得到三个脸部特征向量,分别是:4.根据权利要求3所述的基于集成学习的多模态融合视线估计框架,其特征在于,使用
梅尔频率倒谱系数进行语音特征提取的步骤具体如下:利用MFCC对音频进行数据增强,记作A
...

【专利技术属性】
技术研发人员:黄承浩黄和金王虓一张瑞昌李金豪洪峰王岩张彦如
申请(专利权)人:电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1