一种音频识别方法和装置制造方法及图纸

技术编号：15748528 阅读：272 留言：0更新日期：2017-07-03 08:17

本申请提供了一种音频识别方法和装置，其中，该方法包括：对待识别音频数据进行分帧处理，得到多帧音频数据；根据帧与帧之间和帧内的音频变化趋势，计算得到所述待识别音频数据每一帧的特征值；将所述待识别音频数据每一帧的特征值与预先建立的音频特征值对照表进行匹配识别，得到识别结果，其中，所述音频特征值对照表是根据样本数据帧与帧之间和帧内的音频变化趋势建立的。利用本申请实施例提供的技术方案，可以大大提高抗干扰的能力、识别成功率和识别结果的准确度。

全部详细技术资料下载

【技术实现步骤摘要】
一种音频识别方法和装置
本申请属于数据处理
，尤其涉及一种音频识别方法和装置。
技术介绍
随着智能化水平的不断提高，人们越来越多的生活都通过智能终端等实现。例如，近些年刚出现的电视互动、音频识别等等。举例而言，在播放车载电台，听到电台中放一首歌，想知道这首歌的名字，如果按照以前的处理方式，最多是录下来，然后问问朋友，或者是听一下歌词，然后网上搜索一下。然而，随着智能化水平和识别技术的不断发展，人们现在已经可以通过智能终端中直接实现对音频的识别，只要开启终端中的音乐识别功能，然后就可以自动识别出当前歌曲的歌名或者歌手等，更有甚至可以直接连接到音乐软件播放该歌曲。上述就是基于音频指纹的电视互动或音乐识别的简单实现场景，但是这一切都需要依赖于较为精准的音频识别技术，目前，主流的音频识别技术是：提取特征点对，利用特征点对音频进行识别判断，具体地，如图1所示，首先将音乐转换成语谱图，在语谱图上提取若干个如图1所示的极值点。为了减少识别的难度，提升识别的效率，可以采取点对的方式进行识别，即，两个极值点构成一个点对，如图1所示示出了7个点对，识别时，如果存在一样的点对则认为存在一个正确的匹配。然而，由于受噪声的影响，极值点不一定都在一致的位置出现，因此点对可以匹配上的概率比较低，另外，这些极值点容易受到噪声的干扰，不是特别稳定，在噪声较大的时候不能获取较为稳定的识别结果。针对现有的音频识别技术中所存在的匹配成功率低、以及由于抗噪能力较弱而导致的识别准确率低的问题，目前未提出有效的解决方案。
技术实现思路
本申请目的在于提供一种音频识别方法和装置，可以有效提高匹配成功率...

【技术保护点】
一种音频识别方法，其特征在于，所述方法包括：对待识别音频数据进行分帧处理，得到多帧音频数据；根据帧与帧之间和帧内的音频变化趋势，计算得到所述待识别音频数据每一帧的特征值；将所述待识别音频数据每一帧的特征值与预先建立的音频特征值对照表进行匹配识别，得到识别结果，其中，所述音频特征值对照表是根据样本数据帧与帧之间和帧内的音频变化趋势建立的。

【技术特征摘要】
1.一种音频识别方法，其特征在于，所述方法包括：对待识别音频数据进行分帧处理，得到多帧音频数据；根据帧与帧之间和帧内的音频变化趋势，计算得到所述待识别音频数据每一帧的特征值；将所述待识别音频数据每一帧的特征值与预先建立的音频特征值对照表进行匹配识别，得到识别结果，其中，所述音频特征值对照表是根据样本数据帧与帧之间和帧内的音频变化趋势建立的。2.根据权利要求1所述的方法，其特征在于，预先建立音频特征值对照表包括：获取样本数据，其中，所述样本数据包括多段样本音频；对所述多段样本音频中的各段样本音频进行分帧处理，得到每段样本音频的多帧音频数据；根据帧与帧之间和帧内的音频变化趋势，计算得到每段样本音频每一帧的特征值；以特征值作为根节点，按照每段样本音频每一帧的特征值，将每段样本音频每一帧增加至对应的根节点之后，形成对应关系；将所述对应关系作为所述音频特征值对照表。3.根据权利要求2所述的方法，其特征在于，将所述每一帧的特征值与预先建立的音频特征值对照表进行匹配识别，得到识别结果，包括：建立投票矩阵，其中，所述投票矩阵是按照样本音频的数量和每段样本音频的帧数建立的；对所述待识别音频数据每一帧执行以下操作：从所述音频特征值对照表中，查找出与当前帧的特征值相同的一帧或多帧音频数据，在所述投票矩阵中与当前帧的音频特征值相同的一帧或多帧音频数据的对应位置进行投票标记；将投票标记数最高且超出预设阈值的样本音频作为识别结果。4.根据权利要求1所述的方法，其特征在于，根据帧与帧之间和帧内的音频变化趋势，计算得到所述待识别音频数据每一帧的特征值，包括：将所述待识别音频数据的每一帧音频数据转换为一个预定维数的向量数据；根据每一帧音频数据的向量数据相邻维度之间的向量值和相邻帧的向量值，将每一帧音频数据的向量数据转换为一个二进制序列；将转换得到的二进制序列作为对应的一帧音频数据的特征值，或者将二进制序列对应的十进制数值作为对应的一帧数据的特征值。5.根据权利要求4所述的方法，其特征在于，根据每一帧音频数据的向量数据相邻维度之间的向量值和相邻帧的向量值，将每一帧音频数据的向量数据转换为一个二进制序列，包括：按照以下公式，将每一帧音频数据的向量数据转换为一个二进制序列：diff＝-n*t1-mt2+mt3+n2*t4其中，di-2,j表示第i-2帧音频数据第j个维度的向量值，di-2,j+1表示第i-2帧音频数据第j+1个维度的向量值，di-1,j表示第i-1帧音频数据第j个维度的向量值、di-1,j+1表示第i-1帧音频数据第j+1个维度的向量值、di+1,j表示第i+1帧音频数据第j个维度的向量值、di+1,j+1表示第i+1帧音频数据第j+1个维度的向量值、di+2,j表示第i+2帧音频数据第j个维度的向量值、di+2,j+1表示第i+2帧音频数据第j+1个维度的向量值，t1、t2、t3、t4、diff表示中间参量、Biti,j表示第i帧音频数据二进制序列第j个比特位的取值，n、m为定量系数。6.根据权利要求4所述的方法，其特征在于，将所述待识别音频数据的每一帧音频数据转换为一个预定维数的向量数据，包括：通过MFCC特征参数提取算法，将所述待识别音频数据的每一帧音频数据转换为一个预定维数的向量数据。7.根据权利要求4所述的方法，其特征在于，所述预定维数为12。8.根据权利要求4所述的方法，其特征在于，将所述待识别音频数据每一帧的特征值与预先建立的音频特征值对照表进行匹配识别，得到识别结果，包括：将所述待识别音频数据每一帧的特征值与预先建立的音频特征值对照表进行匹配识别，查找出与所述待识别音频数据的匹配度大于预设阈值的一段或多段样本音频；从所述一段或多段样本音频中确定出匹配度最高的样本音频作为识别结果。9.根据权利要求8所述的方法，其特征在于，从所述一段或多段样本音频中确定出匹配度最高的样本音频作为识别结果，包括：对所述一段或多段样本音频中的每段音频执行以下操作：确定所述待识别音频数据的帧数，并获取所述待识别音频数据每一帧的二进制序列，获取当前段样本音频与所述待识别音频数据对应的每一帧数据的二进制序列，确定所述待识别音频数据每一帧的二进制序列与所述与待识别音频数据对应的每一帧数据的二进制序列之间相同比特位置比特值不同的位数；将所述一段或多段样本音频中比特值不同的位数最少的样本音频作为识别结果。10.根据权利要求1至9中任一项所述的方法，其特征在于，对待识别音频数据进行分帧处理，包括：按照相邻帧以预定毫秒数重叠的划分规则，对所述...

【专利技术属性】
技术研发人员：杜志军，王楠，
申请(专利权)人：阿里巴巴集团控股有限公司，
类型：发明
国别省市：开曼群岛,KY

全部详细技术资料下载我是这个专利的主人