基于智能终端的声音装置进行唇读的用户认证方法及系统制造方法及图纸

技术编号:17442310 阅读:34 留言:0更新日期:2018-03-10 15:06
一种基于智能终端的声音装置进行唇读的用户认证方法,在注册阶段利用深度自编码器网络来提取不同层面的用户嘴唇运动特征用以表达用户的特异性,然后用提取出的特征训练多个分类器和模仿者检测器,再基于二叉树的认证框架组织训练后的分类器以及模仿者检测器;在登录阶段,利用基于二叉树的认证方式得到待测嘴唇运动特征对应的单个词下的认证结果,最后经融合多个认证结果后实现用户认证。本发明专利技术解决了基于声波唇读的用户认证问题,并通过成熟的声波信号处理技术及深度学习方法来对用户嘴唇运动的行为特异特征进行建模与预测。

【技术实现步骤摘要】
基于智能终端的声音装置进行唇读的用户认证方法及系统
本专利技术涉及的是一种语音处理领域的技术,具体是一种基于智能终端的声音装置进行唇读的用户认证方法及系统。
技术介绍
基于智能终端的声音装置进行唇读的用户认证方法主要作用是利用智能装置发出的声音信号对用户说话时的嘴唇运动进行捕捉,并找出不同用户之间的嘴唇运动的行为特征不同,最后利用其对不同的用户进行身份识别和模仿者检测。基于用户生物特征进行用户认证的方法已被广泛地进行了研究,其中较为广泛被应用的有指纹识别、面部识别、声纹识别认证方式。围绕这3种方法开发的产品也已有很多,如AppleTouchID,支付宝刷脸登录以及微信声纹登录。然而,这些方法都无法很好地抵御重播攻击。虽然活体认证的技术很快被采用到这些认证方法中去用于提高认证精度,如支付宝在进行刷脸登录时要求用户眨眼以判断正在认证的用户不是一张照片,但这些方法仍然在很大程度上受到环境的制约。
技术实现思路
本专利技术针对现有结合活体认证的基于生物特征的用户认证技术的不足,提出一种基于智能终端的声音装置进行唇读的用户认证方法及系统,解决了基于声波唇读的用户认证问题,并通过成熟的声波信号处理技术及深度学习方法来对用户嘴唇运动的行为特异特征进行建模与预测。本专利技术是通过以下技术方案实现的:本专利技术涉及一种基于智能终端的声音装置进行唇读的用户认证方法,在注册阶段利用深度自编码器网络来提取不同层面的用户嘴唇运动特征用以表达用户的特异性,然后用提取出的特征训练多个分类器和模仿者检测器,再基于二叉树的认证框架组织训练后的分类器以及模仿者检测器;在登录阶段,利用基于二叉树的认证方式得到待测嘴唇运动特征对应的单个词下的认证结果,最后经融合多个认证结果后实现用户认证。所述的深度自编码器网络包括:输入层、降噪层、隐藏层和输出层,其中:隐藏层由三层结构的自编码器组成,依次从粗粒度词层面、细粒度词层面以及用户层面进行编码,并最终由输出层输出嘴唇运动特征。所述的嘴唇运动特征具体是指:通过智能终端发出的声音信号经说话人嘴唇反射后构成的细微多普勒效应信号,通过深度自编码器网络编码后所得到的编码序列。所述的分类器具体为支持向量机实现的二分类器。所述的模仿者检测器具体为支持向量描述域实现的单类分类器。所述的基于二叉树的认证方式是指:在n个注册用户的环境下,首先将嘴唇运动特征输入到第n个用户对应的分类器,即第n个分类器中,当:①第n个分类器将该嘴唇运动特征分类为第n个用户时,则进一步采用模仿者检测器判断该嘴唇运动特征是否属于模仿者;否则:②第n个分类器将该嘴唇运动特征分类为前n-1个用户中的一个,则进一步由第n-1个分类器进行分类。以此类推,当第i个分类器判断该嘴唇运动特征是第i个用户,则可以知道至少该嘴唇运动特征所属用户不会是前i-1个用户中的任意一个;同时由于第i+1~n个分类器已经判断过该登录用户不是第i+1~n个用户中的任意一个,因此判断该嘴唇运动特征所属用户为第i个用户;否则就会不断地将该嘴唇运动特征通过之前的分类器进行判断。特别地,对第1个用户,则直接用模仿者检测器判断其嘴唇运动特征是属于用户还是模仿者。所述的融合,采用加权的投票机制实现;即以单个词下的认证精度作为权值,对每个注册用户和模仿者类都计算一个置信度,以登录用户视为置信度最大的用户类。技术效果与现有技术相比,本专利技术利用声波技术来捕捉用户说话时嘴唇运动的特异行为特征,这种方法既能够很好地区分不同用户,又可以适应不同的复杂环境,如抵御周围光线、噪声的影响,即在具有较高识别准确率(91.7%以上)的同时具有较低的错误接受率(1.2%)和错误拒绝率(1.6%)的同时具有较短的系统响应时间(0.67s)。附图说明图1为本专利技术系统结构示意图;图2为本专利技术流程示意图;图3为实施例中一段口令下的嘴唇感知数据分段结果图;图4为实施例中用于特征提取的三层自编码器网络示意图;图5为实施例中用于用户认证的基于二叉树的认证框架示意图;图6为实施例中在4个场景下的平均混淆矩阵图;图7为实施例中与微信声纹锁、支付宝刷脸登录的认证准确率对比图;图8为实施例中在4个场景下的错误接受率和错误拒绝率图;图9为实施例中成功登录所需次数的累积概率密度图;图10为实施例中响应时间的累积概率密度图。具体实施方式如图1所示,为本实施例涉及的一种基于智能终端的声音装置进行唇读的用户认证系统,其包括:声音感知模块、口令分段模块、基于深度学习的特征提取模块、分类器和监测器训练模块以及用户识别和模仿者检测模块,其中:声音感知模块与口令分段模块相连并传输采集到的由嘴唇运动发射到智能终端麦克风的原始声音信息,口令分段模块与基于深度学习的特征提取模块相连并传输一段口令对应声音信号的分段为单个词对应声音信号的信息,基于深度学习的特征提取模块与分类器和监测器训练模块以及用户识别和模仿者检测模块相连并传输单个词对应声音信号的编码特征信息,分类器和监测器训练模块与用户识别和模仿者检测模块相连并传输训练好的分类器模型。如图2所示,上述系统的认证过程包括:注册(录入用户的嘴唇运动数据)和登录(用户认证)两阶段:在注册阶段,首先采集由运动嘴唇反射回来的声波信号,然后进行口令分段并利用深度自编码器网络从每个词中提取特征,最后利用支持向量机和支持向量描述域的方法训练分类器和模仿者检测器。在登录阶段,本实施例同样采集用户嘴唇运动反射回来的声波信号,并同时分段口令和特征提取,然后利用基于二叉树的认证框架得到单个词下的认证结果,最后结合多个词的分类结果,本实施例利用加权投票的方式得到最终的认证结果。具体地,本实施例要求用户说一段包含多个词的口令,因此首先需要对采集到的声波信号进行分段。用户首先对智能终端说一段口令,同时智能终端发出20kHz的声音信号。接着智能终端接收来自周围环境的反射信号,其中包括了来自用户运动嘴唇的反射信号。由于嘴唇运动的速度通常较慢,其引起的多普勒频移也通常在一个较窄的范围内,大概在+40Hz的范围内,因此本实施例关注的信号范围也在该频带内。此外,用户说一段口令的过程中,每个词之间都会有大约300ms的间隔,因此可以利用一个滑动窗口去捕捉这些间隔。本实施例首先利用短时傅里叶变换将收集到的信号转化为时频信号。当用户不说话时,智能终端能接收到的信号都是来自较远范围的物体反射回去的信号。而这些信号的强度通常远远小于运动嘴唇反射的信号强度。因此本实施例设置一个阈值用以判断说话间隔。具体来说,本实施例首先用一个滑动窗口将某段时域信号通过短时傅里叶变换转换为频域信号,然后判断这个频域信号在各个频率上的值是否都小于设定的阈值。如果是的话,则该滑动窗口覆盖的时间就是说话间隔的一部分。否则,该时间就是用户有效的说话时间。如图3所示,为一段口令下嘴唇感知信号数据的分段结果。本实施例可以看到,当四个频率下的信号强度值都小于阈值时,该时间段就会被视为一个非激活阶段,既说话间隔。在对接收到的信号分段之后,本实施例要提取有效且可靠的特征来表达用户的特异性。本实施例提出一个三层的深度自编码器网络来提取有效特征:如图4所示,为用于特征提取的三层自编码器网络。首先,为了保证提取特征的鲁棒性,本实施例首先对原始输入的信号进行降噪处理,即按照一定的概率p,随机地将原始数本文档来自技高网...
基于智能终端的声音装置进行唇读的用户认证方法及系统

【技术保护点】
一种基于智能终端的声音装置进行唇读的用户认证方法,其特征在于,在注册阶段利用深度自编码器网络来提取不同层面的用户嘴唇运动特征用以表达用户的特异性,然后用提取出的特征训练多个分类器和模仿者检测器,再基于二叉树的认证框架组织训练后的分类器以及模仿者检测器;在登录阶段,利用基于二叉树的认证方式得到待测嘴唇运动特征对应的单个词下的认证结果,最后经融合多个认证结果后实现用户认证;所述的深度自编码器网络包括:输入层、降噪层、隐藏层和输出层,其中:隐藏层由三层结构的自编码器组成,依次从粗粒度词层面、细粒度词层面以及用户层面进行编码,并最终由输出层输出嘴唇运动特征;所述的嘴唇运动特征具体是指:通过智能终端发出的声音信号经说话人嘴唇反射后构成的细微多普勒效应信号,通过深度自编码器网络编码后所得到的编码序列。

【技术特征摘要】
1.一种基于智能终端的声音装置进行唇读的用户认证方法,其特征在于,在注册阶段利用深度自编码器网络来提取不同层面的用户嘴唇运动特征用以表达用户的特异性,然后用提取出的特征训练多个分类器和模仿者检测器,再基于二叉树的认证框架组织训练后的分类器以及模仿者检测器;在登录阶段,利用基于二叉树的认证方式得到待测嘴唇运动特征对应的单个词下的认证结果,最后经融合多个认证结果后实现用户认证;所述的深度自编码器网络包括:输入层、降噪层、隐藏层和输出层,其中:隐藏层由三层结构的自编码器组成,依次从粗粒度词层面、细粒度词层面以及用户层面进行编码,并最终由输出层输出嘴唇运动特征;所述的嘴唇运动特征具体是指:通过智能终端发出的声音信号经说话人嘴唇反射后构成的细微多普勒效应信号,通过深度自编码器网络编码后所得到的编码序列。2.根据权利要求1所述的方法,其特征是,所述的分类器具体为支持向量机实现的二分类器;所述的模仿者检测器具体为支持向量描述域实现的单类分类器。3.根据权利要求1所述的方法,其特征是,所述的基于二叉树的认证方式是指:在n个注册用户的环境下,首先将嘴唇运动特征输入到第n个用户对应的分类器,即第n个分类器中,当:①第n个分类器将该嘴唇运动特征分类为第n个用户时,则进一步采用模仿者检测器判断该嘴唇运动特征是否属于模仿者;否则:②第n个分类器将该嘴唇运动特征分类为前n-1个用户中的一个,则进一步由第n-1个分类器进行分类;...

【专利技术属性】
技术研发人员:俞嘉地卢立
申请(专利权)人:上海交通大学
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1