一种智能语音识别方法技术

技术编号:18765498 阅读:253 留言:0更新日期:2018-08-25 11:27
本发明专利技术提供了一种智能语音识别方法,该方法包括:步骤1:将短时功率和ZCR作特征区分静音和语音,进行端点检测;步骤2:将端点检测后的语音信号分割为多个等长帧;步骤3:通过音频功率的动态变化得到语音信号特征;步骤4:基于语音信号特征的比较结果进行智能POS机的用户身份认证。本发明专利技术提出了一种智能语音识别方法,实现了智能POS机终端身份认证数据本地存储、比对和运算,不需要配置硬件密码设备,也无需上传至支付平台,更具安全性。

【技术实现步骤摘要】
一种智能语音识别方法
本专利技术涉及语音识别,特别涉及一种智能语音识别方法。
技术介绍
目前销售终端的网络安全特别是智能POS机的安全性令人瞩目,通过智能POS机进行信息传递的安全问题日益受到人们的重视。在当前的智能POS机应用中,都是采用用户名、口令的用户认证,并且对智能POS机用户下发数字证书,并利用硬件密码终端私钥不可导出性,加强用户的身份安全。但任何形态的硬件密码设备都需在智能POS机外接实体设备,更降低了方案的易用性,增加了用户的操作复杂度。对于现有技术的指纹识别,识别信息需要传输,安全性受到挑战。如果支付平台存储的特征库发生损失,则无法进行身份认证。
技术实现思路
为解决上述现有技术所存在的问题,本专利技术提出了一种智能语音识别方法,包括:步骤1:将短时功率和ZCR作特征区分静音和语音,进行端点检测;步骤2:将端点检测后的语音信号分割为多个等长帧;步骤3:通过音频功率的动态变化得到语音信号特征;步骤4:基于语音信号特征的比较结果进行智能POS机的用户身份认证。优选地,所述端点检测进一步包括:检测前,先为短时功率和ZCR确定门限,然后连续计算短时功率及ZCR,调整门限,通过状态分析以判断静音段是否结束。优选地,在端点检测中,将频带划分成4段,按照下式计算子带的功率比率SE:其中:Ui和Li分别表示子带i的上限频率和下限频率,i=1,2,3,4;X(ω)表示信号在频率ω处的幅值;如果某帧信号的功率ZCR低于门限,且4段子带的SE近似相等,则判断是静音段。优选地,所述步骤2进一步包括:将语音信号分割为R个等长非重叠帧,记为fk={fk(n)|n=1,2,…,L/R;k=1,2,…,R},其中:L为语音信号长度;R为总帧数;fk(n)为第k帧的第n个采样值。优选地,所述步骤3进一步包括:通过相邻帧及其相邻子带之间的功率差值计算音频功率的动态变化,包括对相邻子带作功率差分,再对相邻帧的差分功率求差值,进行阈值判断。优选地,所述步骤4进一步包括:在语音认证过程中,采用blackman距离度量语音信号的相似性,对于两个音频片段θ1和θ2,h1记为语音信号θ1的哈希索引值,h2记为语音信号θ2的哈希索引值;D记为h1和h2的正则化blackman距离D,即哈希索引值错误位数与总位数的比值,计算公式为:若两个音频片段θ1和θ2的特征相同,则若两个音频片段θ1和θ2的特征不相同,则其中为识别认证阈值。若距离则认为两个音频段θ1和θ2的特征相同。本专利技术相比现有技术,具有以下优点:本专利技术提出了一种智能语音识别方法,实现了智能POS机终端身份认证数据本地存储、比对和运算,不需要配置硬件密码设备,也无需上传至支付平台,更具安全性。附图说明图1是根据本专利技术实施例的一种智能语音识别方法的流程图。具体实施方式下文与图示本专利技术原理的附图一起提供对本专利技术一个或者多个实施例的详细描述。结合这样的实施例描述本专利技术,但是本专利技术不限于任何实施例。本专利技术的范围仅由权利要求书限定,并且本专利技术涵盖诸多替代、修改和等同物。在下文描述中阐述诸多具体细节以便提供对本专利技术的透彻理解。出于示例的目的而提供这些细节,并且无这些具体细节中的一些或者所有细节也可以根据权利要求书实现本专利技术。本专利技术的一方面提供了一种智能语音识别方法。图1是根据本专利技术实施例的一种智能语音识别方法流程图。本专利技术的智能POS机与支付平台通过安全信道连接。智能POS机从支付平台获取预先启动的语音识别请求。基于智能POS机当前支持的识别方式判断所述智能POS机是否支持所述语音识别。若支持所述语音识别,智能POS机客户端利用用户语音的识别结果进行用户身份验证。若验证通过,使用身份认证启动时产生的RSA密钥对中的私钥对随机数进行加密,得到第一加密值,并将所述第一加密值经过智能POS机客户端发送至所述支付平台,以供所述支付平台基于所述第一加密值及身份认证启动时获得的用户公钥进行身份认证。用户身份认证过程中,智能POS机通过支付平台下载当前智能POS机启动的认证请求,并使用智能POS机客户端发现当前智能POS机支持的识别方式,根据启动的认证请求及当前智能POS机支持的认证方式筛选出当前智能POS机可用的认证展现给用户,供用户选择及验证。用户验证后,采用启动语音识别时智能POS机的认证模块在安全环境中产生的RSA密钥对中的用户私钥对随机数进行加密,并将加密值返回支付平台。支付平台利用启动语音识别后存储的用户公钥验证加密值的有效性。在得到加密值之后,根据加密值是否有效判断身份认证是否成功,如果加密值有效,身份认证成功;如果加密值无效,则身份认证失败。在启动认证前,需要利用智能POS机与支付平台协商识别方式,具体的认证启动过程包括:智能POS机从所述支付平台获取协商的识别方式;枚举智能POS机当前支持的识别方式,判断所述智能POS机是否支持语音识别;若支持,智能POS机客户端利用语音识别进行用户身份验证;若用户身份验证通过,认证模块在安全环境中产生RSA密钥对,并使用智能POS机中的认证模块私钥对所述RSA密钥对中的用户公钥进行加密,生成第二加密值;然后,认证模块将所述第二加密值及经认证模块私钥加密的用户公钥通过智能POS机客户端上传至支付平台,以使支付平台使用认证模块公钥验证所述第二加密值是否有效。该过程中,使用智能POS机客户端发现当前智能POS机支持的识别方式,根据当前智能POS机支持的识别方式筛选出可用的认证展现给用户,用户验证后,智能POS机的认证模块产生RSA密钥,并将公钥及启动的认证请求返回认证管理平台存储。在启动语音识别后,在智能POS机的可信存储块中产生RSA密钥对,并将RSA密钥对中的用户公钥导出,通过加密传输协议,将用户公钥传送到支付平台。在下次使用智能POS机时,认证模块完成身份验证后,直接调用可信存储块中存放的RSA密钥对中的私钥对摘要进行加密,并将加密值传递到支付平台进行校验。其中通过该可信存储块的接口接收智能POS机客户端发送的语音识别请求,并根据接收到的身份识别请求,创建对应的识别进程,并通过执行该识别进程,管理该认证模块以及语音采集模块共同完成该识别进程。具体的,首先当支付平台通过该可信存储块的接口接收智能POS机客户端发送的语音识别请求时,支付平台根据该语音识别请求,创建识别进程,并通过执行该识别进程,向该认证模块发送调用指令。其次,该认证模块在接收到支付平台发送的调用指令后,根据该调用指令,确定向支付平台返回调用该语音采集模块的采集指令。以使得支付平台根据该采集指令,向该语音采集模块转发该采集指令。之后,语音采集模块根据支付平台转发的采集指令,通过该可信存储块的接口调用智能POS机的语音输入设备采集该语音片段,并将采集到的语音片段通过支付平台返回该认证模块。该认证模块接收支付平台转发的语音采集模块采集的语音片段。若支付平台发送的调用指令中携带有该待识别的身份信息,则该认证模块可创建该语音片段与该待识别的身份信息的关联关系,并将该语音片段以及该待识别的身份信息作为该待识别的语音信息返回支付平台。或者,该认证模块根据预设的算法,提取该语音片段对应的待识别的用户语音特征模板,再创建该待识别的用户语音特征模板与该待识别的身份信息的关联关系,并将该待识别的用户语音特征模本文档来自技高网...

【技术保护点】
1.一种智能语音识别方法,其特征在于,包括:步骤1:将短时功率和ZCR作特征区分静音和语音,进行端点检测;步骤2:将端点检测后的语音信号分割为多个等长帧;步骤3:通过音频功率的动态变化得到语音信号特征;步骤4:基于语音信号特征的比较结果进行智能POS机的用户身份认证。

【技术特征摘要】
1.一种智能语音识别方法,其特征在于,包括:步骤1:将短时功率和ZCR作特征区分静音和语音,进行端点检测;步骤2:将端点检测后的语音信号分割为多个等长帧;步骤3:通过音频功率的动态变化得到语音信号特征;步骤4:基于语音信号特征的比较结果进行智能POS机的用户身份认证。2.根据权利要求1所述的方法,其特征在于,所述端点检测进一步包括:检测前,先为短时功率和ZCR确定门限,然后连续计算短时功率及ZCR,调整门限,通过状态分析以判断静音段是否结束。3.根据权利要求2所述的方法,其特征在于:在端点检测中,将频带划分成4段,按照下式计算子带的功率比率SE:其中:Ui和Li分别表示子带i的上限频率和下限频率,i=1,2,3,4;X(ω)表示信号在频率ω处的幅值;如果某帧信号的功率ZCR低于门限,且4段子带的SE近似相等,则判断是静音段。4.根据权利要求1所述的方法,其特征在于,所述步骤2进一步包括:将语音信号分割...

【专利技术属性】
技术研发人员:李仁超
申请(专利权)人:成都信达智胜科技有限公司
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1