一种基于机器学习的空号识别方法技术

技术编号：23609577 阅读：51 留言：0更新日期：2020-03-28 09:15

本发明专利技术公开了一种基于机器学习的空号识别方法，分为两个阶段，第一阶段是模型的训练阶段，利用采样音频数据作为训练数据，得到训练模型；第二阶段是模型的使用阶段，利用训练好的模型，把每一条新的音频数据分类到具体的空号类别中，得出空号识别结果。本发明专利技术的一种基于机器学习的空号识别方法，不仅能简化识别的流程，还能提高识别的响应速度，保证较高的识别准确率。

A method of empty number recognition based on machine learning

全部详细技术资料下载

【技术实现步骤摘要】
一种基于机器学习的空号识别方法
本专利技术涉及音频识别
，具体而言，涉及一种基于机器学习的空号识别方法。
技术介绍
空号识别是拨号音分析或者号码状态识别，也叫空号检测。原理就是通过分析拨打电话接通之前的声音，一般有几种类型：长嘟的回铃音、短嘟嘟的忙音、彩铃、通话中、空号、无人接听和关机等交换机给出的各种提示。机器想要识别空号状态，需要分析声音的频率和特征，可以识别出现回铃音、忙音、彩铃、空号，关机，无人接听等交换机给出的被叫状态。目前解决这个问题的方案一般是，把振铃阶段的音频做语音识别(ASR)，再把语音识别的结果，跟关键词做对比，看命中什么关键词就判断出是哪种对应的空号状态。现有的语音识别具有以下缺点：(1)传统的语音识别服务较复杂，使用成本较高；(2)响应速度慢，传统的通过语音识别进行空号识别的方案，由于语音识别模型比较复杂，且响应速度会随着语音的增长而变慢，所以按照此方案进行的空号识别的响应速度比较慢；(3)配置关键词复杂，由于有多种空号状态，所以配置的关键词必须要是其他空号状态所没有的，而且彩铃阶段的空...

【技术保护点】
1.一种基于机器学习的空号识别方法，其特征在于，包括：/n步骤1，将采样好的音频数据作为训练数据，基于机器学习的空号识别建立空号识别模型：/n步骤101，将采样好的音频数据进行预处理，去除静音片段；/n步骤102，将预处理后的音频数据进行MFCC特征提取；/n步骤103，将提取出来的音频特征归一化处理；/n步骤104，将归一化后的数据进行SMOTE算法处理；/n步骤105，将步骤104得到的每条数据进行PCA降维处理；/n步骤106，将降维处理后的数据送入随机森林分类器，训练分类模型，得到随机森林分类模型；/n步骤2，利用建立好的空号识别模型，把新增的音频数据分类到具体的空号类别中，得出空号识...

【技术特征摘要】
1.一种基于机器学习的空号识别方法，其特征在于，包括：
步骤1，将采样好的音频数据作为训练数据，基于机器学习的空号识别建立空号识别模型：
步骤101，将采样好的音频数据进行预处理，去除静音片段；
步骤102，将预处理后的音频数据进行MFCC特征提取；
步骤103，将提取出来的音频特征归一化处理；
步骤104，将归一化后的数据进行SMOTE算法处理；
步骤105，将步骤104得到的每条数据进行PCA降维处理；
步骤106，将降维处理后的数据送入随机森林分类器，训练分类模型，得到随机森林分类模型；
步骤2，利用建立好的空号识别模型，把新增的音频数据分类到具体的空号类别中，得出空号识别结果：
步骤201，将新增的音频数据进行预处理，去除静音片段；
步骤202，将预处理后的音频数据进行MFCC特征提取；
步骤203，将提取出来的音频特征归一化处理；
步骤204，将归一化后的数据进行PCA降维处理；
步骤205，将降维处理后的数据送入步骤106中训练好的随机森林分类模型，得到最后的空号识别结果。

2.根据权利要求1所述的空号识别方法，其特征在于，所述步骤101和所述步骤201的方法具体为：将采样好的每条音频数据分别转化为numpy数组，再把音频中小于最大幅值*0.05的帧全部删除。

3.根据权利要求1所述的空号识别方...

【专利技术属性】
技术研发人员：李一川，尹朝阳，
申请(专利权)人：杭州哲信信息技术有限公司，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人