一种基于机器学习的空号识别方法技术

技术编号:23609577 阅读:51 留言:0更新日期:2020-03-28 09:15
本发明专利技术公开了一种基于机器学习的空号识别方法,分为两个阶段,第一阶段是模型的训练阶段,利用采样音频数据作为训练数据,得到训练模型;第二阶段是模型的使用阶段,利用训练好的模型,把每一条新的音频数据分类到具体的空号类别中,得出空号识别结果。本发明专利技术的一种基于机器学习的空号识别方法,不仅能简化识别的流程,还能提高识别的响应速度,保证较高的识别准确率。

A method of empty number recognition based on machine learning

【技术实现步骤摘要】
一种基于机器学习的空号识别方法
本专利技术涉及音频识别
,具体而言,涉及一种基于机器学习的空号识别方法。
技术介绍
空号识别是拨号音分析或者号码状态识别,也叫空号检测。原理就是通过分析拨打电话接通之前的声音,一般有几种类型:长嘟的回铃音、短嘟嘟的忙音、彩铃、通话中、空号、无人接听和关机等交换机给出的各种提示。机器想要识别空号状态,需要分析声音的频率和特征,可以识别出现回铃音、忙音、彩铃、空号,关机,无人接听等交换机给出的被叫状态。目前解决这个问题的方案一般是,把振铃阶段的音频做语音识别(ASR),再把语音识别的结果,跟关键词做对比,看命中什么关键词就判断出是哪种对应的空号状态。现有的语音识别具有以下缺点:(1)传统的语音识别服务较复杂,使用成本较高;(2)响应速度慢,传统的通过语音识别进行空号识别的方案,由于语音识别模型比较复杂,且响应速度会随着语音的增长而变慢,所以按照此方案进行的空号识别的响应速度比较慢;(3)配置关键词复杂,由于有多种空号状态,所以配置的关键词必须要是其他空号状态所没有的,而且彩铃阶段的空号识别结果,也容易不本文档来自技高网...

【技术保护点】
1.一种基于机器学习的空号识别方法,其特征在于,包括:/n步骤1,将采样好的音频数据作为训练数据,基于机器学习的空号识别建立空号识别模型:/n步骤101,将采样好的音频数据进行预处理,去除静音片段;/n步骤102,将预处理后的音频数据进行MFCC特征提取;/n步骤103,将提取出来的音频特征归一化处理;/n步骤104,将归一化后的数据进行SMOTE算法处理;/n步骤105,将步骤104得到的每条数据进行PCA降维处理;/n步骤106,将降维处理后的数据送入随机森林分类器,训练分类模型,得到随机森林分类模型;/n步骤2,利用建立好的空号识别模型,把新增的音频数据分类到具体的空号类别中,得出空号识...

【技术特征摘要】
1.一种基于机器学习的空号识别方法,其特征在于,包括:
步骤1,将采样好的音频数据作为训练数据,基于机器学习的空号识别建立空号识别模型:
步骤101,将采样好的音频数据进行预处理,去除静音片段;
步骤102,将预处理后的音频数据进行MFCC特征提取;
步骤103,将提取出来的音频特征归一化处理;
步骤104,将归一化后的数据进行SMOTE算法处理;
步骤105,将步骤104得到的每条数据进行PCA降维处理;
步骤106,将降维处理后的数据送入随机森林分类器,训练分类模型,得到随机森林分类模型;
步骤2,利用建立好的空号识别模型,把新增的音频数据分类到具体的空号类别中,得出空号识别结果:
步骤201,将新增的音频数据进行预处理,去除静音片段;
步骤202,将预处理后的音频数据进行MFCC特征提取;
步骤203,将提取出来的音频特征归一化处理;
步骤204,将归一化后的数据进行PCA降维处理;
步骤205,将降维处理后的数据送入步骤106中训练好的随机森林分类模型,得到最后的空号识别结果。


2.根据权利要求1所述的空号识别方法,其特征在于,所述步骤101和所述步骤201的方法具体为:将采样好的每条音频数据分别转化为numpy数组,再把音频中小于最大幅值*0.05的帧全部删除。


3.根据权利要求1所述的空号识别方...

【专利技术属性】
技术研发人员:李一川尹朝阳
申请(专利权)人:杭州哲信信息技术有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1