【技术实现步骤摘要】
一种基于多模态信息的座舱环境下年龄识别方法和装置
[0001]本申请涉及智能汽车
,更具体地,涉及一种基于多模态信息的座舱环境下年龄识别方法和装置。
技术介绍
[0002]随着人工智能技术的不断发展,其应用场景更加多元化和专业化。目前来说,很多应用场景需要采集用户的年龄,以汽车智能座舱为例,需要获取用户的年龄信息,以便基于用户的年龄信息提供更好的服务。
[0003]现有技术中,一般通过采集用户的人脸图像信息或者声音信息,利用深度学习、机器学习等方法单一的处理人脸信息或者语音信息进行年龄识别。然而,现有技术在根据单一类型的人脸或者声音数据来训练年龄识别模型时,由于不同年龄阶段,不同职业,不同地域等,使得单一类型数据对于年龄识别依然存在识别精度不高的问题。
[0004]因此,如何进一步提高智能座舱环境下的年龄识别精度,是目前有待解决的技术问题。
技术实现思路
[0005]本申请实施例提供一种基于多模态信息的座舱环境下年龄识别方法和装置,用以进一步提高智能座舱环境下的年龄识别精度。
[ ...
【技术保护点】
【技术特征摘要】
1.一种基于多模态信息的座舱环境下年龄识别方法,其特征在于,所述方法包括:获取预设数量的人脸图像数据和与所述人脸图像数据关联的语音数据,对所述人脸图像数据和所述语音数据进行标注,得到数据集;搭建基于预设神经网络的年龄识别模型;基于所述数据集对所述年龄识别模型进行训练,训练完成后得到目标年龄识别模型;获取智能座舱环境下目标人的目标人脸图像和目标语音,并将所述目标人脸图像和所述目标语音输入所述目标年龄识别模型,根据所述目标年龄识别模型的输出结果确定所述目标人的年龄;其中,所述年龄识别模型包括预设个数的依次连接的层,每个所述层后连接一个特征融合模块,非最后一个所述特征融合模块的输出连接下一个所述层,最后一个所述特征融合模块的输出连接一个预设分类器,所述预设分类器的输出连接一个全连接层,所述特征融合模块用于获取前一个所述层输出的图像特征和语音特征,并基于所述语音特征对所述图像特征进行补充后输出新的图像特征。2.如权利要求1所述的方法,其特征在于,首个所述层将输入的人脸图像处理后输入首个所述特征融合模块,首个所述层将输入的语音处理后分别输入首个所述特征融合模块和第二个所述层,非首个所述层将前一个所述特征融合模块输入的新的图像特征处理后输入下一个所述特征融合模块,除首个和最后一个以外的所述层将前一个所述层输入的语音特征处理后分别输入下一个所述特征融合模块和下一个所述层,最后一个所述层将前一个所述层输入的语音特征处理后输入下一个所述特征融合模块。3.如权利要求2所述的方法,其特征在于,所述预设神经网络为Transformer神经网络,所述年龄识别模型的Backbone采用Swin
‑
Transformer,所述预设个数为四,第一、二、四个所述层分别包括两个Swin Transformer Block,第三个所述层包括六个Swin Transformer Block。4.如权利要求1所述的方法,其特征在于,所述特征融合模块获取前一个所述层输出的图像特征和语音特征,并基于所述语音特征对所述图像特征进行补充后输出新的图像特征的具体过程包括:设F
img
为所述图像特征,F
voice
为所述语音特征,将大小为的F
img
转换为大小,其中N=H
×
W,并通过线性Embedding操作生成大小为的残差向量和大小为的图像Q向量Q
img
,并得到与图像Q向量Q
img
对应的图像K向量K
img
和图像V向量V
img
;对F
voice
经过一次转置、第一MLP、二次转置,得到尺寸为的向量,并经线性Embedding操作后生成大小为的语音Q向量Q
voice
,并得到与语音Q向量Q
voice
对应的语音向量K
voice
和语音V向量V
voice
;根据图像Q向量Q
img
、图像K向量K
img
、图像V向量V
img
、语音Q向量Q
voice
、语音向量K
voice
和语音V向量V
voice
确定图像注意力结果U
img
和语音注意力结果U
voice
;将图像注意力结果U
img
和语音注意力结果...
【专利技术属性】
技术研发人员:胡敏,李冬冬,宁欣,李爽,周嵘,唐小江,姜丽敏,
申请(专利权)人:北京中科睿途科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。