多模态活体检测方法、装置、计算机设备及存储介质制造方法及图纸

技术编号：31709224 阅读：27 留言：0更新日期：2022-01-01 11:12

本发明专利技术涉及人工智能技术领域，尤其涉及一种多模态活体检测方法、装置、计算机设备及存储介质。该多模态活体检测方法包括采集活体检测视频流中的语音帧以及所述语音帧对应的帧图像；将所述语音帧以及所述帧图像输入至活体检测模型中进行活体检测，所述活体检测模型包括嘴部定位模块、语音特征提取模块以及活体检测模块；通过所述嘴部定位模块定位所述帧图像中的口型图像；以及，通过所述语音特征提取模块提取所述语音帧对应的语音特征；通过所述活体检测模块基于所述多模态特征进行活体检测，得到活体检测结果；其中，所述多模态特征包括所述口型图像特征与所述语音特征。该方法可通过结合帧图像和语音帧进行活体检测，提高活体检测的准确性。检测的准确性。检测的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
多模态活体检测方法、装置、计算机设备及存储介质

[0001]本专利技术涉及人工智能
，尤其涉及一种多模态活体检测方法、装置、计算机设备及存储介质。

技术介绍

[0002]目前，活体检测技术可以分为配合式活体检测和非配合式活体检测。配合式活体检测要求用户做出相应的动作辅助人脸图像判断。非配合式活体检测无需用户行动，通过硬件检测深度、红外光等信息进行判断。
[0003]其中，针对配合式活体检测，一般需要被测者在镜头前念出系统要求的内容，以通过视频和语音判断用户的真伪。但传统的配合式活体检测主要为通过独立的语音识别技术和人脸识别技术，分别分析语音和图像信息，并未将图像信息和语音信息结合起来，给予了不法分子可乘之机，例如不法分子可通过用户的照片和自己的语音来通过活体检测的验证，从而导致当前的活体检测存在较大的风险。

技术实现思路

[0004]本专利技术实施例提供一种多模态活体检测方法、装置、计算机设备及存储介质，以解决目前活体检测的准确性不高的问题。
[0005]一种多模态活体检测方法，包括：
[0006]采集活体检测视频流中的语音帧以及所述语音帧对应的帧图像；
[0007]将所述语音帧以及所述帧图像输入至活体检测模型中进行活体检测，所述活体检测模型包括嘴部定位模块、语音特征提取模块以及活体检测模块；
[0008]通过所述嘴部定位模块定位所述帧图像中的口型图像；以及，通过所述语音特征提取模块提取所述语音帧对应的语音特征；其中，所述口型图像对应一口型图像特征；/>[0009]通过所述活体检测模块基于所述多模态特征进行活体检测，得到活体检测结果；其中，所述多模态特征包括所述口型图像特征与所述语音特征。
[0010]一种多模态活体检测装置，包括：
[0011]数据采集模块，用于采集活体检测视频流中的语音帧以及所述语音帧对应的帧图像；
[0012]活体检测模型检测模块，用于将所述语音帧以及所述帧图像输入至活体检测模型中进行活体检测，所述活体检测模型包括嘴部定位模块、语音特征提取模块以及活体检测模块；
[0013]特征提取模块，用于通过所述嘴部定位模块定位所述帧图像中的口型图像；以及，通过所述语音特征提取模块提取所述语音帧对应的语音特征；其中，所述口型图像对应一口型图像特征；
[0014]活体检测模块，用于通过所述活体检测模块基于所述多模态特征进行活体检测，得到活体检测结果；其中，所述多模态特征包括所述口型图像特征与所述语音特征。
[0015]一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述多模态活体检测方法的步骤。
[0016]一种计算机存储介质，所述计算机存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述多模态活体检测方法的步骤。
[0017]上述多模态活体检测方法、装置、计算机设备及存储介质中，通过采集活体检测视频流中的语音帧以及语音帧对应的帧图像，以将语音帧以及帧图像输入至活体检测模型中进行活体检测，即通过嘴部定位模块定位帧图像中的口型图像；以及，通过语音特征提取模块提取语音帧对应的语音特征，然后通过活体检测模块基于口型图像特征与语音特征组合形成的多模态特征进行活体检测，得到活体检测结果，以结合帧图像和语音帧进行活体检测，提高活体检测的准确性。
附图说明
[0018]为了更清楚地说明本专利技术实施例的技术方案，下面将对本专利技术实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本专利技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
[0019]图1是本专利技术一实施例中多模态活体检测方法的一应用环境示意图；
[0020]图2是本专利技术一实施例中多模态活体检测方法的一流程图；
[0021]图3是本专利技术一实施例中多模态活体检测方法的一流程图；
[0022]图4是图3中步骤S304的一具体流程图；
[0023]图5是本专利技术一实施例中多模态活体检测方法的一流程图；
[0024]图6是图2中步骤S203的一具体流程图；
[0025]图7是本专利技术一实施例中活体检测模块的结构框图；
[0026]图8是图3中步骤S305的一具体流程图；
[0027]图9是本专利技术一实施例中多模态活体检测装置的一示意图；
[0028]图10是本专利技术一实施例中计算机设备的一示意图。
具体实施方式
[0029]下面将结合本专利技术实施例中的附图，对本专利技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本专利技术一部分实施例，而不是全部的实施例。基于本专利技术中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本专利技术保护的范围。
[0030]该多模态活体检测方法可应用在如图1的应用环境中，其中，计算机设备通过网络与服务器进行通信。计算机设备可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务器可以用独立的服务器来实现。
[0031]在一实施例中，如图2所示，提供一种多模态活体检测方法，以该方法应用在图1中的服务器为例进行说明，包括如下步骤：
[0032]S201：采集活体检测视频流中的语音帧以及语音帧对应的帧图像。
[0033]其中，本方法可应用在活体检测中，用于对活体检测流中的图像信息以及语音信息进行综合检测分析，以在语音信息与图像信息不一致时，返回检测失败的活体检测结果。
[0034]具体地，通过媒体采集模块采集被测者根据系统要求的文字内容朗读文本的活体检测视频流。本实施例中，按照10ms为一帧截取活体检测视频流中的音频信号，以得到多帧语音帧。由于10ms以内用户的口型变化非常微小，故可随机截取该10ms视频中任意一张图像或按照时间顺序选取处于中间位置的图像作为该语音帧对应的帧图像。
[0035]S202：将语音帧以及帧图像输入至活体检测模型中进行活体检测，活体检测模型包括嘴部定位模块、语音特征提取模块以及活体检测模块。
[0036]其中，该嘴部定位模块用于定位帧图像中的口型图像，于本实施例中可包括但不限于通过MTCNN网络实现，即通过mtcnn网络对帧对帧图像中的人脸关键点进行定位，以输出嘴部关键点，并根据嘴部关键点，获取帧图像中的嘴部图像即口型图像。该语音特征提取模块用于提取语音帧的语音特征，于本实施例中可包括但不限于通过MFCC(Mel frequency cepstral coefficients)梅尔频率倒谱系数实现。该活体检测模块用于针对多模态特征进行特征编码并分类，以输出活体检测结果。于本实施例中包括但不限于可通过Transformer网络实现。
[0037]S203：通过嘴部定位模块定位帧图像中的口型图像；以及，通过语音特征提取模块提取语音帧对应的语音特征；本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种多模态活体检测方法，其特征在于，包括：采集活体检测视频流中的语音帧以及所述语音帧对应的帧图像；将所述语音帧以及所述帧图像输入至活体检测模型中进行活体检测，所述活体检测模型包括嘴部定位模块、语音特征提取模块以及活体检测模块；通过所述嘴部定位模块定位所述帧图像中的口型图像；以及，通过所述语音特征提取模块提取所述语音帧对应的语音特征；其中，所述口型图像对应一口型图像特征；通过所述活体检测模块基于所述多模态特征进行活体检测，得到活体检测结果；其中，所述多模态特征包括所述口型图像特征与所述语音特征。2.如权利要求1所述多模态活体检测方法，其特征在于，所述活体检测模型包括组合编码模块；在所述通过所述活体检测模块基于所述多模态特征进行活体检测之前，所述多模态活体检测方法还包括：通过所述组合编码模块对多模态特征进行组合编码，得到组合编码特征；所述通过所述活体检测模块基于所述多模态特征进行活体检测，得到活体检测结果包括：通过所述活体检测模块基于所述组合编码特征进行活体检测，得到活体检测结果。3.如权利要求2所述多模态活体检测方法，其特征在于，通过所述组合编码模块对多模态特征进行组合编码，得到组合编码特征，包括：对所述多模态特征进行线性变换，得到第一编码特征；对所述多模态特征进行位置编码，得到第二编码特征；将所述第一编码特征与所述第二编码特征相加，得到所述组合编码特征。4.如权利要求1所述多模态活体检测方法，其特征在于，在所述采集活体检测视频流中的语音帧以及所述语音帧对应的帧图像之前，所述多模态活体检测方法还包括：爬取已公开的对话视频，并将所述对话视频作为模型训练的正样本；对所述正样本进行增噪处理，得到负样本；根据正负样本训练所述活体检测模型。5.如权利要求4所述多模态活体检测方法，其特征在于，所述增噪处理包括语音帧与帧图像的错位处理、语音帧增噪处理以及帧图像增噪处理中的一个或多个。6.如权利要求1所述多模态活体检测方法，其特征在于，所述通过所述语音特征提取模块提取所述语音帧对应的语音特征，包括：对所述语音帧进行预加重和加窗处理，得到加窗后的语音帧；对所述加窗后的语音帧进行频域转换，得到频谱特征；通过梅尔滤波器组对所述频谱特征进行滤波，输出滤波后的频谱特征；对所述滤波后的频谱特征进行离散余弦变换，得到倒谱系数；对所述倒谱系数进行多阶差分计算，得到所述语音特征。7.如...

【专利技术属性】
技术研发人员：罗剑，王健宗，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人