当前位置: 首页 > 专利查询>复旦大学专利>正文

一种基于音视频信息融合的人员身份识别方法技术

技术编号:28943021 阅读:35 留言:0更新日期:2021-06-18 21:51
本发明专利技术提供了一种基于音视频信息融合的人员身份识别方法,具有这样的特征,包括以下步骤,步骤S1,读入音视频资料的视频信息以及音频信息,对视频信息以及音频信息进行预处理,得到预处理视频信息以及预处理音频信息;步骤S2,将预处理音频信息进行处理,提取出音频特征;步骤S3,将预处理视频信息进行处理,提取出针对预处理视频信息中人员的人脸特征、头部特征以及身体特征;步骤S4,搭建多个MLP神经网络模型,并对多个MLP神经网络模型进行训练以及权值的设定,得到MLP神经网络联合模型;步骤S5,把音频特征、人脸特征、头部特征以及身体特征输入MLP神经网络联合模型,得到判断的类别结果。

【技术实现步骤摘要】
一种基于音视频信息融合的人员身份识别方法
本专利技术涉及计算机视觉听觉、人工智能
,具体涉及到一种多基于音视频信息融合的人员身份识别方法。
技术介绍
音视频资料中的人识别是计算机视觉和机器学习领域的一个具有挑战性的课题。目前这一领域有两种方案,一种叫人脸识别,另一种叫声纹识别。所谓人脸识别是指判断待测人脸图像和数据库中的已知人脸图像是否属于同一个人;声纹识别是指判断待测音频和数据库中的已知音频是否属于同一个人。与静止图像不同,音视频资料同时包含视频信息和音频信息。但是上述的两种方案并没有真正利用到全部的音视频信息,而且由于人脸识别对姿态、模糊、遮挡等干扰因素十分敏感,以及人物并非一直出现在视频之中,这使得单纯的人脸识别时常失效。多模式身份识别是一种更具前景的方法,可以联合利用人脸、头部、身体、音频等特征,提供更精确、稳定的身份识别。
技术实现思路
本专利技术是为了解决上述问题而进行的,目的在于提供一种多基于音视频信息融合的人员身份识别方法。本专利技术提供了一种基于音视频信息融合的人员身份识别方法本文档来自技高网...

【技术保护点】
1.一种基于音视频信息融合的人员身份识别方法,其特征在于,包括以下步骤:/n步骤S1,读入音视频资料的视频信息以及音频信息,对所述视频信息以及所述音频信息进行预处理,得到预处理视频信息以及预处理音频信息;/n步骤S2,将所述预处理音频信息进行处理,提取出音频特征;/n步骤S3,将所述预处理视频信息进行处理,提取出针对所述预处理视频信息中人员的人脸特征、头部特征以及身体特征;/n步骤S4,搭建多个MLP神经网络模型,并对多个所述MLP神经网络模型进行训练以及权值的设定,得到MLP神经网络联合模型;/n步骤S5,把所述音频特征、所述人脸特征、所述头部特征以及所述身体特征输入所述MLP神经网络联合模...

【技术特征摘要】
1.一种基于音视频信息融合的人员身份识别方法,其特征在于,包括以下步骤:
步骤S1,读入音视频资料的视频信息以及音频信息,对所述视频信息以及所述音频信息进行预处理,得到预处理视频信息以及预处理音频信息;
步骤S2,将所述预处理音频信息进行处理,提取出音频特征;
步骤S3,将所述预处理视频信息进行处理,提取出针对所述预处理视频信息中人员的人脸特征、头部特征以及身体特征;
步骤S4,搭建多个MLP神经网络模型,并对多个所述MLP神经网络模型进行训练以及权值的设定,得到MLP神经网络联合模型;
步骤S5,把所述音频特征、所述人脸特征、所述头部特征以及所述身体特征输入所述MLP神经网络联合模型,得到判断的类别结果;
其中,步骤S4包括以下子步骤:
步骤S4-1,搭建多个所述MLP神经网络模型,其包含的模型参数为随机设置;
步骤S4-2,把训练集输入多个所述MLP神经网络模型进行模型训练并进行一次迭代;
步骤S4-3,迭代后,采用多个所述MLP神经网络模型最后一层的模型参数分别计算出损失误差,然后将计算得到的损失误差反向传播,从而更新所述模型参数;
步骤S4-4,重复步骤S4-2至步骤S4-3直至达到训练完成条件,得到多个训练后的所述卷积神经网络模型;
步骤S4-5,根据多个训练后的所述MLP神经网络模型在所述模型训练中的准确率对多个所述MLP神经网络模型进行权值的设定,得到MLP神经网络联合模型。


2.根据权利要求1所述的一种基于深度学习的双视野眼底图像融合方法,其特征在于:
其中,在步骤S1中,所述预处理包括删除低帧率、低像素的所述视频信息,以及对视频信息每2秒截取一次、对音频...

【专利技术属性】
技术研发人员:潘志灏程颖冯瑞
申请(专利权)人:复旦大学
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1