一种音频识别方法和装置制造方法及图纸

技术编号:15748528 阅读:272 留言:0更新日期:2017-07-03 08:17
本申请提供了一种音频识别方法和装置,其中,该方法包括:对待识别音频数据进行分帧处理,得到多帧音频数据;根据帧与帧之间和帧内的音频变化趋势,计算得到所述待识别音频数据每一帧的特征值;将所述待识别音频数据每一帧的特征值与预先建立的音频特征值对照表进行匹配识别,得到识别结果,其中,所述音频特征值对照表是根据样本数据帧与帧之间和帧内的音频变化趋势建立的。利用本申请实施例提供的技术方案,可以大大提高抗干扰的能力、识别成功率和识别结果的准确度。

【技术实现步骤摘要】
一种音频识别方法和装置
本申请属于数据处理
,尤其涉及一种音频识别方法和装置。
技术介绍
随着智能化水平的不断提高,人们越来越多的生活都通过智能终端等实现。例如,近些年刚出现的电视互动、音频识别等等。举例而言,在播放车载电台,听到电台中放一首歌,想知道这首歌的名字,如果按照以前的处理方式,最多是录下来,然后问问朋友,或者是听一下歌词,然后网上搜索一下。然而,随着智能化水平和识别技术的不断发展,人们现在已经可以通过智能终端中直接实现对音频的识别,只要开启终端中的音乐识别功能,然后就可以自动识别出当前歌曲的歌名或者歌手等,更有甚至可以直接连接到音乐软件播放该歌曲。上述就是基于音频指纹的电视互动或音乐识别的简单实现场景,但是这一切都需要依赖于较为精准的音频识别技术,目前,主流的音频识别技术是:提取特征点对,利用特征点对音频进行识别判断,具体地,如图1所示,首先将音乐转换成语谱图,在语谱图上提取若干个如图1所示的极值点。为了减少识别的难度,提升识别的效率,可以采取点对的方式进行识别,即,两个极值点构成一个点对,如图1所示示出了7个点对,识别时,如果存在一样的点对则认为存在一个正确的匹配。然而,由于受噪声的影响,极值点不一定都在一致的位置出现,因此点对可以匹配上的概率比较低,另外,这些极值点容易受到噪声的干扰,不是特别稳定,在噪声较大的时候不能获取较为稳定的识别结果。针对现有的音频识别技术中所存在的匹配成功率低、以及由于抗噪能力较弱而导致的识别准确率低的问题,目前未提出有效的解决方案。
技术实现思路
本申请目的在于提供一种音频识别方法和装置,可以有效提高匹配成功率和识别结果的准确度。本申请提供一种音频识别方法和装置是这样实现的:一种音频识别方法,所述方法包括:对待识别音频数据进行分帧处理,得到多帧音频数据;根据帧与帧之间和帧内的音频变化趋势,计算得到所述待识别音频数据每一帧的特征值;将所述待识别音频数据每一帧的特征值与预先建立的音频特征值对照表进行匹配识别,得到识别结果,其中,所述音频特征值对照表是根据样本数据帧与帧之间和帧内的音频变化趋势建立的。一种音频识别装置装置,所述装置包括:分帧模块,用于对待识别音频数据进行分帧处理,得到多帧音频数据;计算模块,用于根据帧与帧之间和帧内的音频变化趋势,计算得到所述待识别音频数据每一帧的特征值;匹配识别模块,用于将所述待识别音频数据每一帧的特征值与预先建立的音频特征值对照表进行匹配识别,得到识别结果,其中,所述音频特征值对照表是根据样本数据帧与帧之间和帧内的音频变化趋势建立的。本申请提供的一种音频识别方法和装置,通过根据帧与帧之间和帧内的音频变化趋势,计算得到待识别音频数据每一帧的特征值,然后将每一帧的特征值与预先建立的音频特征值对照表进行匹配识别,从而得到识别结果,即,在频域不是提取极值点,而是利用帧与帧之间、帧内之间的比较关系,获得一个相对稳定的编码结果,从而可以有效地对抗噪声的干扰,使得识别结果更为准确。利用本申请实施方案,不仅可以大大提高抗干扰的能力,还可以有效提高识别成功率和识别结果的准确度。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1是现有的基于提取特征点对的音频识别方法示意图;图2是本申请提供的音频识别方法一种实施例的方法流程图;图3是本申请提供的特征向量示意图;图4是本申请提供的音频特征值对照表示意图;图5是本申请提供的待识别音频数据识别匹配示意图;图6是本申请提供的二进制比特位求和示意图;图7是本申请提供的音频识别装置的模块结构示意图。具体实施方式为了使本
的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。为了使本
的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。图2是本申请所述一种音频识别方法一个实施例的方法流程图。虽然本申请提供了如下述实施例或附图所示的方法操作步骤或装置结构,但基于常规或者无需创造性的劳动在所述方法或装置中可以包括更多或者更少的操作步骤或模块单元。在逻辑性上不存在必要因果关系的步骤或结构中,这些步骤的执行顺序或装置的模块结构不限于本申请实施例描述及附图所示的执行顺序或模块结构。所述的方法或模块结构的在实际中的装置或终端产品应用时,可以按照实施例或者附图所示的方法或模块结构连接进行顺序执行或者并行执行(例如并行处理器或者多线程处理的环境,甚至分布式处理环境)。具体的如图2所述,本申请一种实施例提供的一种音频识别方法可以包括:S1:对待识别音频数据进行分帧处理,得到多帧音频数据;待识别的音频数据可以是音频识别软件所录取的一小段语音,或者是在电视互动上的一段语音,一般主要是为了识别出这段语音的出处。在录取后,可以将其进行分帧处理,例如,可以每30ms作为一帧数据,当然,具体选择多少ms作为一帧音频数据的长度,本申请不作限定,可以按照实际需要选择,20ms,25ms,40ms等都可以。但是需要保证的是,待识别音频数据分帧处理的规则需要与预先建立的音频特征值对照表时的分帧原则相同。进一步的,因为在进行匹配识别的时候,由于分帧的影响,难免会出现偏差,为了减少偏差的影响,在分帧处理的时候,需要设定帧与帧之间是重叠的,以30ms作为一帧为例进行说明,第一帧是0到30ms,那么第二帧就是16ms到45ms,第三帧就是30ms到60ms,即,按照相邻帧以预定毫秒数重叠的划分规则,对所述待识别音频数据进行分帧处理,也就是说,相邻帧之间是重叠的,从而避免了帧划分造成的偏差对匹配结果的影响。在进行后续的数据处理前,可以对每一帧音频数据进行快速傅立叶变换(FastFourierTransform,简称为FFT)变换,从而将音频数据转换至频域,在频域对信号进行分析。S2:根据帧与帧之间和帧内的音频变化趋势,计算得到所述待识别音频数据每一帧的特征值;在确定特征的过程中,可以针对上述FFT变换后得到的频域结果,利用MFCC特征参数提取算法,获得预定维数的特征向量(例如12维),之所以采用MFCC特征参数提取算法,是因为MFCC特征在语音识别中能够提取出信号中的明显变化区域,具有较好的区分性。MFCC是Mel频率倒谱系数的缩写,其中,Mel频率是基于人耳听觉特性提出来的,它与Hz频率成非线性对应关系。Mel频率倒谱系数(MFCC)则是利用它们之间的这种关系,计算得到的Hz频谱特征,由于Mel频率与Hz频率之间非线性的对应本文档来自技高网
...
一种音频识别方法和装置

【技术保护点】
一种音频识别方法,其特征在于,所述方法包括:对待识别音频数据进行分帧处理,得到多帧音频数据;根据帧与帧之间和帧内的音频变化趋势,计算得到所述待识别音频数据每一帧的特征值;将所述待识别音频数据每一帧的特征值与预先建立的音频特征值对照表进行匹配识别,得到识别结果,其中,所述音频特征值对照表是根据样本数据帧与帧之间和帧内的音频变化趋势建立的。

【技术特征摘要】
1.一种音频识别方法,其特征在于,所述方法包括:对待识别音频数据进行分帧处理,得到多帧音频数据;根据帧与帧之间和帧内的音频变化趋势,计算得到所述待识别音频数据每一帧的特征值;将所述待识别音频数据每一帧的特征值与预先建立的音频特征值对照表进行匹配识别,得到识别结果,其中,所述音频特征值对照表是根据样本数据帧与帧之间和帧内的音频变化趋势建立的。2.根据权利要求1所述的方法,其特征在于,预先建立音频特征值对照表包括:获取样本数据,其中,所述样本数据包括多段样本音频;对所述多段样本音频中的各段样本音频进行分帧处理,得到每段样本音频的多帧音频数据;根据帧与帧之间和帧内的音频变化趋势,计算得到每段样本音频每一帧的特征值;以特征值作为根节点,按照每段样本音频每一帧的特征值,将每段样本音频每一帧增加至对应的根节点之后,形成对应关系;将所述对应关系作为所述音频特征值对照表。3.根据权利要求2所述的方法,其特征在于,将所述每一帧的特征值与预先建立的音频特征值对照表进行匹配识别,得到识别结果,包括:建立投票矩阵,其中,所述投票矩阵是按照样本音频的数量和每段样本音频的帧数建立的;对所述待识别音频数据每一帧执行以下操作:从所述音频特征值对照表中,查找出与当前帧的特征值相同的一帧或多帧音频数据,在所述投票矩阵中与当前帧的音频特征值相同的一帧或多帧音频数据的对应位置进行投票标记;将投票标记数最高且超出预设阈值的样本音频作为识别结果。4.根据权利要求1所述的方法,其特征在于,根据帧与帧之间和帧内的音频变化趋势,计算得到所述待识别音频数据每一帧的特征值,包括:将所述待识别音频数据的每一帧音频数据转换为一个预定维数的向量数据;根据每一帧音频数据的向量数据相邻维度之间的向量值和相邻帧的向量值,将每一帧音频数据的向量数据转换为一个二进制序列;将转换得到的二进制序列作为对应的一帧音频数据的特征值,或者将二进制序列对应的十进制数值作为对应的一帧数据的特征值。5.根据权利要求4所述的方法,其特征在于,根据每一帧音频数据的向量数据相邻维度之间的向量值和相邻帧的向量值,将每一帧音频数据的向量数据转换为一个二进制序列,包括:按照以下公式,将每一帧音频数据的向量数据转换为一个二进制序列:diff=-n*t1-mt2+mt3+n2*t4其中,di-2,j表示第i-2帧音频数据第j个维度的向量值,di-2,j+1表示第i-2帧音频数据第j+1个维度的向量值,di-1,j表示第i-1帧音频数据第j个维度的向量值、di-1,j+1表示第i-1帧音频数据第j+1个维度的向量值、di+1,j表示第i+1帧音频数据第j个维度的向量值、di+1,j+1表示第i+1帧音频数据第j+1个维度的向量值、di+2,j表示第i+2帧音频数据第j个维度的向量值、di+2,j+1表示第i+2帧音频数据第j+1个维度的向量值,t1、t2、t3、t4、diff表示中间参量、Biti,j表示第i帧音频数据二进制序列第j个比特位的取值,n、m为定量系数。6.根据权利要求4所述的方法,其特征在于,将所述待识别音频数据的每一帧音频数据转换为一个预定维数的向量数据,包括:通过MFCC特征参数提取算法,将所述待识别音频数据的每一帧音频数据转换为一个预定维数的向量数据。7.根据权利要求4所述的方法,其特征在于,所述预定维数为12。8.根据权利要求4所述的方法,其特征在于,将所述待识别音频数据每一帧的特征值与预先建立的音频特征值对照表进行匹配识别,得到识别结果,包括:将所述待识别音频数据每一帧的特征值与预先建立的音频特征值对照表进行匹配识别,查找出与所述待识别音频数据的匹配度大于预设阈值的一段或多段样本音频;从所述一段或多段样本音频中确定出匹配度最高的样本音频作为识别结果。9.根据权利要求8所述的方法,其特征在于,从所述一段或多段样本音频中确定出匹配度最高的样本音频作为识别结果,包括:对所述一段或多段样本音频中的每段音频执行以下操作:确定所述待识别音频数据的帧数,并获取所述待识别音频数据每一帧的二进制序列,获取当前段样本音频与所述待识别音频数据对应的每一帧数据的二进制序列,确定所述待识别音频数据每一帧的二进制序列与所述与待识别音频数据对应的每一帧数据的二进制序列之间相同比特位置比特值不同的位数;将所述一段或多段样本音频中比特值不同的位数最少的样本音频作为识别结果。10.根据权利要求1至9中任一项所述的方法,其特征在于,对待识别音频数据进行分帧处理,包括:按照相邻帧以预定毫秒数重叠的划分规则,对所述...

【专利技术属性】
技术研发人员:杜志军王楠
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1