本发明专利技术公开了一种基于机器学习的空号识别方法,分为两个阶段,第一阶段是模型的训练阶段,利用采样音频数据作为训练数据,得到训练模型;第二阶段是模型的使用阶段,利用训练好的模型,把每一条新的音频数据分类到具体的空号类别中,得出空号识别结果。本发明专利技术的一种基于机器学习的空号识别方法,不仅能简化识别的流程,还能提高识别的响应速度,保证较高的识别准确率。
A method of empty number recognition based on machine learning
【技术实现步骤摘要】
一种基于机器学习的空号识别方法
本专利技术涉及音频识别
,具体而言,涉及一种基于机器学习的空号识别方法。
技术介绍
空号识别是拨号音分析或者号码状态识别,也叫空号检测。原理就是通过分析拨打电话接通之前的声音,一般有几种类型:长嘟的回铃音、短嘟嘟的忙音、彩铃、通话中、空号、无人接听和关机等交换机给出的各种提示。机器想要识别空号状态,需要分析声音的频率和特征,可以识别出现回铃音、忙音、彩铃、空号,关机,无人接听等交换机给出的被叫状态。目前解决这个问题的方案一般是,把振铃阶段的音频做语音识别(ASR),再把语音识别的结果,跟关键词做对比,看命中什么关键词就判断出是哪种对应的空号状态。现有的语音识别具有以下缺点:(1)传统的语音识别服务较复杂,使用成本较高;(2)响应速度慢,传统的通过语音识别进行空号识别的方案,由于语音识别模型比较复杂,且响应速度会随着语音的增长而变慢,所以按照此方案进行的空号识别的响应速度比较慢;(3)配置关键词复杂,由于有多种空号状态,所以配置的关键词必须要是其他空号状态所没有的,而且彩铃阶段的空号识别结果,也容易不小心命中所配的关键词,导致识别率降低,所以关键词的配置需要每个都通过人为筛选和优化,此过程比较复杂。
技术实现思路
为解决上述问题,本专利技术的目的在于提供一种基于机器学习的空号识别方法,不仅能简化识别的流程,还能提高识别的响应速度,保证较高的识别准确率。本专利技术提供了一种基于机器学习的空号识别方法,包括:步骤1,将采样好的音频数据作为训练数据,基于机器学习的空号识别建立空号识别模型:步骤101,将采样好的音频数据进行预处理,去除静音片段;步骤102,将预处理后的音频数据进行MFCC特征提取;步骤103,将提取出来的音频特征归一化处理;步骤104,将归一化后的数据进行SMOTE算法处理;步骤105,将步骤104得到的每条数据进行PCA降维处理;步骤106,将降维处理后的数据送入随机森林分类器,训练分类模型,得到随机森林分类模型;步骤2,利用建立好的空号识别模型,把新增的音频数据分类到具体的空号类别中,得出空号识别结果:步骤201,将新增的音频数据进行预处理,去除静音片段;步骤202,将预处理后的音频数据进行MFCC特征提取;步骤203,将提取出来的音频特征归一化处理;步骤204,将归一化后的数据进行PCA降维处理;步骤205,将降维处理后的数据送入步骤106中训练好的随机森林分类模型,得到最后的空号识别结果。作为本专利技术进一步的改进,所述步骤101和所述步骤201的方法具体为:将采样好的每条音频数据分别转化为numpy数组,再把音频中小于最大幅值*0.05的帧全部删除。作为本专利技术进一步的改进,所述步骤102和所述步骤202的方法具体为:选取音频的倒数第24000帧到倒数500帧,提取MFCC的窗口大小为0.025秒,步长为0.01秒,特征维度选取13维,并把提取到的特征水平铺开。作为本专利技术进一步的改进,所述步骤103和所述步骤203中归一化的公式如下:X′=(X-X_min)/(X_max-X_min)式中,X′为一个样本的每一维特征归一化后得到的结果,X为一个样本的每一维特征归一化前的值,X_min为一个样本的所有维度特征的最小值,X_max为一个样本的所有维度特征的最大值;归一化后,音频特征的每一个维度的范围都是(-1,1)。作为本专利技术进一步的改进,所述步骤104中,通过SMOTE算法处理,将音频数据中数量少的类别的数据通过已有数据生成的方式,人工合成数量少类别的数据,使得每个类别的数据总个数一致。作为本专利技术进一步的改进,所述步骤105和所述步骤204中,在降维前,音频数据的维度是3808维,降维后的维度为200维。作为本专利技术进一步的改进,所述步骤106替换为:将降维处理后的数据送入Xgboost分类器或Svm分类器,训练分类模型,得到Xgboost分类模型或Svm分类模型。本专利技术的有益效果为:本专利技术的一种基于机器学习的空号识别方法,识别流程更为简单,与传统的识别方式相比,识别模型更为精确,能在保证较高识别准确率的同时提高识别的响应速度。附图说明图1为本专利技术实施例所述的一种基于机器学习的空号识别方法的流程示意图具体实施方式下面通过具体的实施例并结合附图对本专利技术做进一步的详细描述。本专利技术实施例所述的一种基于机器学习的空号识别方法,分为两个阶段,第一阶段是模型的训练阶段,利用采样音频数据作为训练数据,得到训练模型;第二阶段是模型的使用阶段,利用训练好的模型,把每一条新的音频数据分类到具体的空号类别中,得出空号识别结果。如图1所示,本专利技术实施例所述的一种基于机器学习的空号识别方法,包括:步骤1,将采样好的音频数据作为训练数据,基于机器学习的空号识别建立空号识别模型:步骤101,将采样好的音频数据进行预处理,去除静音片段。具体的,将采样好的20000条8000采样率的音频数据中的每一条都转化为numpy数组,再把音频中小于最大幅值*0.05的帧全部删除。其中,在对数据进行分类别时,可以将采样的数据人工标记为7种号类型(长嘟的回铃音、短嘟嘟的忙音、彩铃、通话中、空号、关机、无人接听)中的一类。步骤102,将预处理后的音频数据进行MFCC特征提取。梅尔频率倒谱系数(MFCC)特征提取的步骤按照以下流程:把音频数据的数组,进过预加重、分帧、加窗、快速傅立叶变换、Mel滤波器组、对话运算、离散余弦变换的操作,提取出MFCC特征,此MFCC特征可以简单代表在这段时间内音频的基本变化规律。具体到本实施例中,选取音频的倒数第24000帧到倒数500帧(也即最后3秒时间,去除最后0.0625秒,共2.9375秒内的数据),提取MFCC的窗口大小为0.025秒,步长为0.01秒,特征维度选取13维,并把提取到的特征水平铺开。步骤103,将提取出来的音频特征归一化处理。归一化的公式如下:X′=(X-X_min)/(X_max-X_min)式中,X′为一个样本的每一维特征归一化后得到的结果,X为一个样本的每一维特征归一化前的值,X_min为一个样本的所有维度特征的最小值,X_max为一个样本的所有维度特征的最大值;比如音频为一个3808维的向量,最小值需要在3808个特征中选取,最大值也同样需要在3808个特征中选取。归一化后,音频特征的每一个维度的范围都是(-1,1)。步骤104,将归一化后的数据进行SMOTE算法处理。进行SMOTE算法处理是为了解决数据类别不平衡的问题,如果数据集中存在某一类样本,其数量远多于或远少于其他类样本,会导致机器学习模型失效。本专利技术需要采用SMOTE算法,将音频数据中数量少的类别的数据通过已有数据生成的方式,人工合成数量少类别的数据,使得每个类别的数据总个数一致。其中,每个本文档来自技高网...
【技术保护点】
1.一种基于机器学习的空号识别方法,其特征在于,包括:/n步骤1,将采样好的音频数据作为训练数据,基于机器学习的空号识别建立空号识别模型:/n步骤101,将采样好的音频数据进行预处理,去除静音片段;/n步骤102,将预处理后的音频数据进行MFCC特征提取;/n步骤103,将提取出来的音频特征归一化处理;/n步骤104,将归一化后的数据进行SMOTE算法处理;/n步骤105,将步骤104得到的每条数据进行PCA降维处理;/n步骤106,将降维处理后的数据送入随机森林分类器,训练分类模型,得到随机森林分类模型;/n步骤2,利用建立好的空号识别模型,把新增的音频数据分类到具体的空号类别中,得出空号识别结果:/n步骤201,将新增的音频数据进行预处理,去除静音片段;/n步骤202,将预处理后的音频数据进行MFCC特征提取;/n步骤203,将提取出来的音频特征归一化处理;/n步骤204,将归一化后的数据进行PCA降维处理;/n步骤205,将降维处理后的数据送入步骤106中训练好的随机森林分类模型,得到最后的空号识别结果。/n
【技术特征摘要】
1.一种基于机器学习的空号识别方法,其特征在于,包括:
步骤1,将采样好的音频数据作为训练数据,基于机器学习的空号识别建立空号识别模型:
步骤101,将采样好的音频数据进行预处理,去除静音片段;
步骤102,将预处理后的音频数据进行MFCC特征提取;
步骤103,将提取出来的音频特征归一化处理;
步骤104,将归一化后的数据进行SMOTE算法处理;
步骤105,将步骤104得到的每条数据进行PCA降维处理;
步骤106,将降维处理后的数据送入随机森林分类器,训练分类模型,得到随机森林分类模型;
步骤2,利用建立好的空号识别模型,把新增的音频数据分类到具体的空号类别中,得出空号识别结果:
步骤201,将新增的音频数据进行预处理,去除静音片段;
步骤202,将预处理后的音频数据进行MFCC特征提取;
步骤203,将提取出来的音频特征归一化处理;
步骤204,将归一化后的数据进行PCA降维处理;
步骤205,将降维处理后的数据送入步骤106中训练好的随机森林分类模型,得到最后的空号识别结果。
2.根据权利要求1所述的空号识别方法,其特征在于,所述步骤101和所述步骤201的方法具体为:将采样好的每条音频数据分别转化为numpy数组,再把音频中小于最大幅值*0.05的帧全部删除。
3.根据权利要求1所述的空号识别方...
【专利技术属性】
技术研发人员:李一川,尹朝阳,
申请(专利权)人:杭州哲信信息技术有限公司,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。