一种音频识别方法、装置、电子设备及存储介质制造方法及图纸

技术编号:33622894 阅读:14 留言:0更新日期:2022-06-02 00:48
本公开提供了一种音频识别方法、装置、电子设备、可读存储介质以及计算机程序产品,涉及人工智能、安全认证技术以及声纹识别技术领域。具体实现方案为:基于待识别音频在频域对应的第一音频特征,确定所述待识别音频在实数域对应的第二音频特征;利用目标压缩函数对所述第二音频特征进行特征压缩,获得所述待识别音频对应的非线性音频特征,所述目标压缩函数为预先对可平滑对数压缩函数进行参数学习得到的,所述可平滑对数压缩函数中包括预设的可学习参数;基于所述非线性音频特征,确定所述待识别音频对应的音频识别结果。该方案能够在无需人工提取音频特征的情况下,高效的模拟出待识别音频的非线性,进而能够提高音频识别的安全性和识别效率。安全性和识别效率。安全性和识别效率。

【技术实现步骤摘要】
一种音频识别方法、装置、电子设备及存储介质


[0001]本公开涉及人工智能领域,进一步涉及安全认证技术、声纹识别
,具体涉及一种音频识别方法、装置、电子设备、可读存储介质以及计算机程序产品。

技术介绍

[0002]随着计算机技术和人工智能技术的快速发展,生物识别技术也得到了快速的推广与发展。生物识别技术作为一种利用人体固有的生物特征来进行个人身份认证的技术,具有不易遗忘以及随时随地可用等优点。
[0003]但是,生物识别技术在应用过程中也会面临安全性低以及识别效率较低等诸多问题。例如:利用使用者的音频特征来进行个人身份认证的音频识别技术,在应用过程中往往会面临恶意欺骗攻击的问题。

技术实现思路

[0004]本公开提供了提供一种音频识别方法、装置、电子设备、可读存储介质以及计算机程序产品,以提高音频识别的安全性和识别效率。
[0005]根据本公开的一方面,提供了一种音频识别方法,该方法可以包括以下步骤:
[0006]基于待识别音频在频域对应的第一音频特征,确定待识别音频在实数域对应的第二音频特征;
[0007]利用目标压缩函数对第二音频特征进行特征压缩,获得待识别音频对应的非线性音频特征,目标压缩函数为预先对可平滑对数压缩函数进行参数学习得到的,可平滑对数压缩函数中包括预设的可学习参数;
[0008]基于非线性音频特征,确定待识别音频对应的音频识别结果根据本公开的第二方面,提供了一种音频识别装置,该装置可以包括:
[0009]第二音频特征确定单元,用于基于待识别音频在频域对应的第一音频特征,确定待识别音频在实数域对应的第二音频特征;
[0010]非线性音频特征确定单元,用于利用目标压缩函数对第二音频特征进行特征压缩,获得待识别音频对应的非线性音频特征,目标压缩函数为预先对可平滑对数压缩函数进行参数学习得到的,可平滑对数压缩函数中包括预设的可学习参数;
[0011]音频识别结果确定单元,用于基于非线性音频特征,确定待识别音频对应的音频识别结果。
[0012]根据本公开的另一方面,提供了一种电子设备,包括:
[0013]至少一个处理器;以及
[0014]与该至少一个处理器通信连接的存储器;其中,
[0015]该存储器存储有可被该至少一个处理器执行的指令,该指令被该至少一个处理器执行,以使该至少一个处理器能够执行本公开任一实施例中的方法。
[0016]根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储
介质,该计算机指令用于使计算机执行本公开任一实施例中的方法。
[0017]根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现本公开任一实施例中的方法。
[0018]本公开的技术,利用对可平滑对数压缩函数进行参数学习得到的目标压缩函数,来获得待识别音频对应的非线性音频特征,可平滑对数压缩函数能够使非线性音频特征的获得过程较为简单。并且通过对可平滑对数压缩函数进行参数学习得到的目标压缩函数,能够在无需人工提取音频特征的情况下,高效的模拟出待识别音频的非线性,进而能够提高音频识别的安全性和识别效率。
[0019]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0020]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0021]图1为本公开的实施例提供一种音频识别方法的流程图;
[0022]图2为本公开的实施例中提供的一种非线性音频特征获得方法的流程图;
[0023]图3为本公开的实施例中提供的一种音频识别结果确定方法的流程图;
[0024]图4为本公开的实施例中提供的一种音频识别结果获得方法的流程图;
[0025]图5为本公开的实施例中提供的一种音频识别过程的示意图;
[0026]图6为本公开的实施例中提供一种音频识别装置的示意图;
[0027]图7为本公开的实施例中提供的一种电子设备的示意图。
具体实施方式
[0028]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0029]本公开的实施例提供一种音频识别方法,具体请参照图1,其为本公开的实施例提供一种音频识别方法的流程图,该方法可以包括如下步骤:
[0030]步骤S101:基于待识别音频在频域对应的第一音频特征,确定待识别音频在实数域对应的第二音频特征。
[0031]步骤S102:利用目标压缩函数对第二音频特征进行特征压缩,获得待识别音频对应的非线性音频特征,目标压缩函数为预先对可平滑对数压缩函数进行参数学习得到的,可平滑对数压缩函数中包括预设的可学习参数。
[0032]步骤S103:基于非线性音频特征,确定待识别音频对应的音频识别结果。
[0033]本公开的实施例中提供的音频识别方法,利用对可平滑对数压缩函数进行参数学习得到的目标压缩函数,来获得待识别音频对应的非线性音频特征,可平滑对数压缩函数能够使非线性音频特征的获得过程较为简单。并且通过对可平滑对数压缩函数进行参数学习得到的目标压缩函数,能够在无需人工提取音频特征的情况下,高效的模拟出待识别音频的非线性,进而能够提高音频识别的安全性和识别效率。
[0034]另外,在可平滑对数压缩函数中预设可学习参数,使得可平滑对数压缩函数能够接入到特定的神经网络模型中进行端到端的训练。
[0035]待识别音频属于随着时间的变化而变化的时域信号,一般为非线性时域信号。在实际应用中,待识别音频可以是:基于预设的音频采集设备,针对目标对象采集到的音频;也可以是:对音频采集设备采集到的音频进行音频预处理后获得的已处理音频。
[0036]本公开的实施例中,对音频进行音频预处理的方式包括但不限于:噪音去除以及音频时域增强。其中,噪音去除的目的是:去除音频采集设备采集到的音频中的环境噪音、忙音或者手机外放产生的声音等;音频时域增强的目的是:混叠回声,或者改变音频的语速速率等。
[0037]通过对音频采集设备采集到的音频进行音频预处理,来获得待识别音频,能够降低待识别音频中的干扰因素,提高待识别音频的音频质量,从而能够提高音频识别结果的准确度。
[0038]本公开的实施例中,具体可以通过预先训练好的目标音频识别模型来实现该音频识别方法。即,上述步骤S101

步骤S104可以通过目标音频识别模型来实现。
[0039]所谓目标音频识别模型为基于音频样本以及对应的标注,对待训练的音频识别模型进行本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种音频识别方法,包括:基于待识别音频在频域对应的第一音频特征,确定所述待识别音频在实数域对应的第二音频特征;利用目标压缩函数对所述第二音频特征进行特征压缩,获得所述待识别音频对应的非线性音频特征,所述目标压缩函数为预先对可平滑对数压缩函数进行参数学习得到的,所述可平滑对数压缩函数中包括预设的可学习参数;基于所述非线性音频特征,确定所述待识别音频对应的音频识别结果。2.根据权利要求1所述的方法,其中,所述利用目标压缩函数对所述第二音频特征进行特征压缩,获得所述待识别音频对应的非线性音频特征,包括:对所述第二音频特征进行特征采样,获得所述第二音频特征对应的采样音频特征;将所述采样音频特征输入到所述目标压缩函数中,获得所述非线性音频特征。3.根据权利要求1或2所述的方法,其中,所述目标压缩函数的确定方式,包括:在训练获得目标音频识别模型的过程中,对所述可平滑对数压缩函数进行参数学习,获得所述目标压缩函数;其中,所述目标音频识别模型为基于音频样本以及对应的标注训练得到的模型,用于识别所述待识别音频以获得所述音频识别结果,所述目标压缩函数属于所述目标音频识别模型中用于获得所述非线性音频特征的特征提取层。4.根据权利要求1或2所述的方法,其中,在所述音频识别结果包括用于表示所述待识别音频是否为真实人声的识别结果情况下,所述基于所述非线性音频特征,确定所述待识别音频对应的音频识别结果,包括:基于所述非线性音频特征,确定所述待识别音频为所述真实人声的概率;基于所述概率,确定所述音频识别结果。5.根据权利要求4所述的方法,其中,所述基于所述概率,确定所述音频识别结果,包括:在所述概率满足预设条件的情况下,确定所述待识别音频为所...

【专利技术属性】
技术研发人员:张银辉赵情恩熊新雷陈蓉梁芸铭周羊
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1