一种基于多模态数据源的身份验证和识别方法及系统技术方案

技术编号：40230100 阅读：11 留言：0更新日期：2024-02-02 22:32

本发明专利技术涉及一种基于多模态数据源的身份验证和识别方法及系统，包括人脸识别，声纹识别，人名识别，身份识别；所述人脸识别通过人脸检测，人脸对齐，人脸特征提取，特征匹配获取人脸的身份ID；所述声纹识别通过声纹数据提取，声纹特征提取，声纹特征匹配获取声纹识别结果；所述人名识别通过提取关键帧中所有的文本信息，识别文本信息中的人名；所述身份识别最通过投票的方式确定关键帧中的人脸的身份ID。该方法充分融合了人脸识别、声纹识别、自然语言处理多种技术，有效地对视频流中的人脸身份进行识别和跟踪，提高了身份识别的准确性和鲁棒性，为复杂场景下的人脸身份识别问题提供了一种有效的解决方案。

全部详细技术资料下载

【技术实现步骤摘要】

本专利涉及计算机视觉、光学字符识别、自然语言处理、声纹识别领域，特别是基于多模态数据源的身份验证和识别系统。

技术介绍

1、随着互联网的高速发展，信息安全在社会生活中日益重要，身份鉴定技术在社会各方面体现着非常重要的应用地位。传统的身份验证方法主要包括标志物件(钥匙、身份证等)、特定的知识(口令、密码等)和标志物件与特定知识的结合(银行卡+口令等)，这些技术已经很成熟，但是无法避免丢失、伪造、遗忘或盗用等问题，存在不安全、不方便、不可靠的缺点。随着网络空间对人类的影响不断扩大，传统的身份验证方法越来越不能满足要求，而利用人类生物特征来识别身份的生物特征识别开始兴起。生物特征作为人的内在属性，具有安全、稳定、不易伪造、不可窃取等优点，是身份验证的最理想依据。由于生物识别技术具有传统方法所无法比拟的优点，得到了人们越来越多的关注，在近些年发展日益成熟。

2、常用的身份认证方式有人脸识别和声纹识别。人脸识别是一种基于人脸特征的生物识别技术，旨在将数字图像或视频中的人脸与已知数据库中的人脸进行匹配和识别。它是计算机视觉和模式识别领域的重要应用之一。

3、人脸识别技术在许多领域得到广泛应用，例如安全领域中的门禁系统、手机和电脑的解锁功能、监控系统、社交媒体标签等。它也被用于辅助犯罪调查和寻找失踪人口。虽然人脸识别技术在许多情况下表现出色，但也面临一些挑战，如光照变化、姿态变化、年龄变化等对识别准确性的影响。因此，持续的研究和改进对于进一步提升人脸识别技术的性能至关重要。

4、声纹识别也称为语音识别、声纹

5、声纹识别技术在许多领域得到广泛应用，例如电话身份验证、语音助手中的个性化服务、法律取证和犯罪调查等。它具有许多优点，如无需用户配合、实时性较高等。然而，声纹识别也面临一些挑战，如环境噪音的影响、不同设备上的语音差异、声纹的情绪变化等。因此，继续的研究和改进对于提高声纹识别技术的准确性和鲁棒性至关重要。

6、在面对复杂场景时，无论是人脸识别还是声纹识别，准确率和鲁棒性可能会受到一些挑战，特别是在社交平台短视频等情况下。这些挑战包括但不限于以下几个方面：1、视频质量：社交平台上的短视频往往由用户拍摄，可能受到光线、摄像头质量和视频稳定性等因素的影响，导致视频质量不稳定，这会影响识别系统的准确性；2、姿态和表情变化：在社交平台上的短视频中，人脸和声纹的姿态和表情可能会发生较大变化，包括角度变化、面部表情变化等，这会增加识别系统对复杂变化的适应难度；3、背景干扰：社交平台短视频中可能存在各种复杂的背景干扰，如其他人物、文字、图像和音频背景噪音等，这些干扰会干扰识别系统的处理。

技术实现思路

1、专利技术目的：一个目的是提供一种基于多模态数据源的身份验证和识别方法，以解决现有技术存在的上述问题。进一步目的是提供一种实现上述方法的系统。

2、技术方案：第一方面，本专利技术提供一种基于多模态数据源的身份验证和识别方法，包括以下步骤：

3、人脸识别，所述人脸识别包括：人脸检测：使用人脸检测算法提取关键帧中每个人脸的位置和关键点；人脸对齐：通过人脸对齐算法将所述步骤人脸检测中获得的人脸结果对齐；人脸特征提取：使用人脸特征提取算法计算所述步骤人脸对齐中对齐人脸的特征向量，并转换为byte类型；人脸特征匹配：计算所述步骤人脸特征提取中得到的待识别人脸的特征向量与人脸数据表中候选人脸特征向量的相似度，将相似度超过设定的相似度阈值的候选的人脸身份id作为待识别人脸的识别结果；

4、声纹识别，所述声纹识别包括：声纹数据提取：使用ffmpeg提取视频中关于图片组的音频数据；声纹特征提取：使用声纹识别算法提取所述步骤声纹数据提取中得到的音频数据的声纹特征向量，并转换为byte类型；声纹特征匹配：将所述步骤声纹特征提取得到的声纹特征与声纹数据表中的声纹特征向量计算余弦相似度，提取所有余弦值高于阈值的声纹特征向量的身份id作为声纹识别结果；

5、人名识别，所述人名识别包括：文本数据提取：使用端到端的光学字符识别算法pgnet提取关键帧图片的所有文本信息，并拼接成一个长文本；人名数据提取：使用命名实体识别算法bert-bilstm-crfi算法识别上一步骤中提取的文本中的人名；人名匹配：将所提取的人名与数据库的候选人名匹配，得到匹配到的人名对应身份id；

6、身份识别，所述身份识别包括：整合人脸识别结果、声纹识别结果、文本处理结果；累积相同身份id被命中的次数；通过投票算法计算候选人的身份识别结果的投票分数，即命中次数，得分最高的身份id即为最终的识别结果。

7、作为本专利技术进一步改进，所述步骤人脸检测中人脸检测算法为retinaface算法，将原始图片送入人脸探测器retinaface中，提取出人脸的位置，包括左上角、右下角坐标[x1,y1,x2,y2]和5个关键点坐标[p1,p2,p3,p4,p5]，具体为：采用骨干网络mobilenetv1，利用fpn+ssh提取多层次的图片特征，在网络头阶段同时预测人脸的类别，人脸的包围框坐标，人脸的关键点坐标，并且在损失函数中同时集成多个阶段的损失：

8、

9、lcls：人脸分类loss，其中pi是anchor i为人脸的预测概率，是positiveanchor，0代表为negative ancho；

10、lbox：人脸框回归loss，其中ti＝{tx,ty,tw,th}，ti*＝{tx*,ty*,tw*,th*}分别代表positive anchor相关的预测框和真实框的坐标；

11、lpts：人脸关键点回归loss，其中li＝{l x1,l y1,…l x5,l y5},li*＝{l x1*,ly1*,…l x5*,ly5*}代表预测的五个人脸关键点和基准点；

12、lpixel：自监督3d mesh renderer稠密人脸回归。

13、作为本专利技术进一步改进，所述步骤人脸对齐中人脸对齐算法采用的是人脸相似变化把检测到的人脸和人脸关键点统一对齐到一个标准模版人脸上，具体为：

14、相似变换：将人脸通过使用旋转、平移、等比缩放，最大可能的与标准模版人脸的坐标进行匹配；

15、定义q矩阵为输入图像的坐标点组成的矩阵，s为标准模版脸坐标点组成的矩阵，m为将输入映射到标准模版脸的映射矩阵；

16、则有q’＝qm，而我们需要最小化的是min∑(q'-s)2，即当m取什么值时，才能使得映射后的q’与s最接近，即min∑(qm-s)2，通过最小二乘法可得m＝(qtq)-1qts；

17、作为本专利技术进一步改进，所述步骤人脸特征提取中人脸特征提取算法为facenet，采用resnet-512作为骨干网络，训练阶段采用三元损失函数，该损失函数能够最小化同一个人的人脸的距离本文档来自技高网...

【技术保护点】

1.一种基于多模态数据源的身份验证和识别方法，其特征是，包括以下步骤：

2.根据权利要求1所述的一种基于多模态数据源的身份验证和识别方法，其特征在于，所述步骤人脸检测中人脸检测算法为RetinaFace算法，将原始图片送入人脸探测器RetinaFace中，提取出人脸的位置包括左上角、右下角的坐标[x1,y1,x2,y2]和5个关键点坐标[p1,p2,p3,p4,p5]，具体为：采用骨干网络mobilenetV1，利用FPN+SSH提取多层次的图片特征，在网络头阶段同时预测人脸的类别，人脸的包围框坐标，人脸的关键点坐标，并且在损失函数中同时集成多个阶段的损失：

3.根据权利要求1所述的一种基于多模态数据源的身份验证和识别方法，其特征是，所述人脸检测模块中对于每个图像组的非关键帧，对图像组的第1帧中的人脸识别结果进行视觉跟踪，以实现对这些人脸的跟踪；同时，保存了每个图像组中第n帧的人脸跟踪结果，并将其与对应的人脸ID关联起来，以便在后续的处理中进行人脸追踪。

4.根据权利要求1所述的一种基于多模态数据源的身份验证和识别方法，其特征在于，所述步骤人脸

5.根据权利要求1所述的一种基于多模态数据源的身份验证和识别方法，其特征在于，所述步骤人脸特征提取中人脸特征提取算法为FaceNet，采用ResNet-512作为骨干网络，训练阶段采用三元损失函数，该损失函数能够最小化同一个人的人脸的距离，最大化不同人的人脸距离：

6.根据权利要求1所述的一种基于多模态数据源的身份验证和识别方法，其特征在于，所述步骤人脸特征匹配中采用余弦相似度计算，其方法如下：

7.根据权利要求1所述的一种基于多模态数据源的身份验证和识别方法，其特征在于：所述步骤声纹特征提取采用TDNN提取声纹特征，损失函数采用交叉熵孙树函数：

8.根据权利要求1所述的一种基于多模态数据源的身份验证和识别方法，其特征在于，所述步骤声纹特征匹配中采用余弦相似度计算，其方法如下：

9.根据权利要求1所述的一种基于多模态数据源的身份验证和识别方法，其特征在于，所述步骤文本数据提取中文本信息抽取采用PGNet算法，具体为：

10.根据权利要求1所述的一种基于多模态数据源的身份验证和识别方法，其特征在于，所述步骤人名数据提取中命名实体识别算法为Bert-BiLSTM-CRFi，其中Bert-BiLSTM用于提取文本信息中的字符特征，并且使用CRF条件随机场对文本特征分类，提取的人名不计算出现次数。

11.根据权利要求1所述的一种基于多模态数据源的身份验证和识别方法，所述步骤身份识别中使用的投票算法结和了人脸识别结果、声纹识别结果、文本识别结果，投票算法如下：

12.本专利技术还公开了一种基于多模态数据源的身份验证和识别系统，包括如下模块：

...

【技术特征摘要】

1.一种基于多模态数据源的身份验证和识别方法，其特征是，包括以下步骤：

2.根据权利要求1所述的一种基于多模态数据源的身份验证和识别方法，其特征在于，所述步骤人脸检测中人脸检测算法为retinaface算法，将原始图片送入人脸探测器retinaface中，提取出人脸的位置包括左上角、右下角的坐标[x1,y1,x2,y2]和5个关键点坐标[p1,p2,p3,p4,p5]，具体为：采用骨干网络mobilenetv1，利用fpn+ssh提取多层次的图片特征，在网络头阶段同时预测人脸的类别，人脸的包围框坐标，人脸的关键点坐标，并且在损失函数中同时集成多个阶段的损失：

3.根据权利要求1所述的一种基于多模态数据源的身份验证和识别方法，其特征是，所述人脸检测模块中对于每个图像组的非关键帧，对图像组的第1帧中的人脸识别结果进行视觉跟踪，以实现对这些人脸的跟踪；同时，保存了每个图像组中第n帧的人脸跟踪结果，并将其与对应的人脸id关联起来，以便在后续的处理中进行人脸追踪。

4.根据权利要求1所述的一种基于多模态数据源的身份验证和识别方法，其特征在于，所述步骤人脸对齐中人脸对齐算法采用的是人脸相似变化，把检测到的人脸和人脸关键点统一对齐到一个标准模版人脸上，具体为：

5.根据权利要求1所述的一种基于多模态数据源的身份验证和识别方法，其特征在于，所述步骤人脸特征提取中人脸特征提取算法为facenet，采用resnet-512作...

【专利技术属性】
技术研发人员：周龙，王海荣，吕晓宝，王元兵，冯凯，
申请(专利权)人：中科曙光南京研究院有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人