Keywords recognition method and device, the method comprises: acquiring the voice recognition data is divided into a plurality of overlapping sound frames; the sound signals of a plurality of voice frames are divided by the fast Fu Liye transform, get the corresponding energy spectrum; each sound frame corresponding to the spectral energy into energy spectrum Mel frequency, and calculate the MFCC parameters; according to the MFCC parameters of each audio frame corresponding to the calculated Euclidean distance, the median DTW between identifying a plurality of voice data with the preset reference template from the median and median correlation distance; when determining the identified voice data and the mean current reference template the DTW distance between the median and median Euclidean distance and correlation distance of the median is less than a preset threshold value, the current reference template as keywords Recognition result. The proposed scheme can improve the accuracy of keyword recognition and save computing resources.
【技术实现步骤摘要】
关键词识别方法及装置
本专利技术涉及语音识别
,特别是涉及一种关键词识别方法及装置。
技术介绍
语音识别是机器通过识别和理解过程将人的语音转换为对应的文本或指令的技术。作为语音识别领域的一个重要分支,关键词(IsolatedWordRecognition,IWR)识别在通信、消费电子、自助服务、办公自动化等领域得到了广泛的应用。现有技术中,一般采用隐马尔可夫模型(HiddenMarkovModel,HMM)hiddenMarkovmodels(HMMs)及其对应的参数,或者关键词识别系统(KWS)进行关键词识别。但是,现有技术中关键词识别方法需要建立对应的模型,并需要对应的翻译操作训练模型参数,存在着计算量大且识别准确率低的问题。
技术实现思路
本专利技术实施例解决的问题是提高关键词识别的准确率,并节约计算资源。为解决上述问题,本专利技术实施例提供了一种关键词识别方法,所述关键词识别方法包括:将获取的待识别声音数据划分为多个重叠的声音帧;对划分得到的多个声音帧的声音信号分别进行快速傅立叶变换运算,得到对应的频谱能量;将各个声音帧对应的频谱能量转换为梅尔频率下的频谱能量,并计算对应的MFCC参数;根据各个声音帧对应的MFCC参数,分别计算得到所述待识别声音数据与预设的多个参考模板之间的DTW距离中值、欧氏距离中值和互相关距离中值;当确定所述待识别声音数据与当前参考模板之间的DTW距离中值、欧氏距离中值和互相关距离中值的均值小于预设的阈值时,将当前参考模板中的关键词作为识别结果。可选地,在所述待识别声音数据的频谱能量大于预设的能量阈值时,执行所述将各个声音帧 ...
【技术保护点】
一种关键词识别方法,其特征在于,包括:将获取的待识别声音数据划分为多个重叠的声音帧;对划分得到的多个声音帧的声音信号分别进行快速傅立叶变换运算,得到对应的频谱能量;将各个声音帧对应的频谱能量转换为梅尔频率下的频谱能量,并计算对应的MFCC参数;根据各个声音帧对应的MFCC参数,分别计算得到所述待识别声音数据与预设的多个参考模板之间的DTW距离中值、欧氏距离中值和互相关距离中值;当确定所述待识别声音数据与当前参考模板之间的DTW距离中值、欧氏距离中值和互相关距离中值的均值小于预设的阈值时,将当前参考模板中的关键词作为识别结果。
【技术特征摘要】
1.一种关键词识别方法,其特征在于,包括:将获取的待识别声音数据划分为多个重叠的声音帧;对划分得到的多个声音帧的声音信号分别进行快速傅立叶变换运算,得到对应的频谱能量;将各个声音帧对应的频谱能量转换为梅尔频率下的频谱能量,并计算对应的MFCC参数;根据各个声音帧对应的MFCC参数,分别计算得到所述待识别声音数据与预设的多个参考模板之间的DTW距离中值、欧氏距离中值和互相关距离中值;当确定所述待识别声音数据与当前参考模板之间的DTW距离中值、欧氏距离中值和互相关距离中值的均值小于预设的阈值时,将当前参考模板中的关键词作为识别结果。2.根据权利要求1所述的关键词识别方法,其特征在于,在所述待识别声音数据的频谱能量大于预设的能量阈值时,执行所述将各个声音帧对应的频谱能量转换为梅尔频率下的频谱能量,并计算对应的MFCC参数的操作。3.根据权利要求1所述的关键词识别方法,其特征在于,所述预设的阈值与所述待识别声音数据的噪音水平相关联。4.根据权利要求3所述的关键词识别方法,其特征在于,所述待识别声音数据的噪音水平包括低噪音水平、中等噪音水平和高噪音水平,其中:当p≥p1时,确定所述待识别声音数据具有低噪音水平,p表示所述待识别声音数据对应的绝对幅值,p1为预设的第一阈值;当p2≥p>p1时,确定所述待识别声音数据具有中等噪音水平,p2为预设的第二阈值,且p1>p2;当p<p2时,确定所述待识别声音数据具有高噪音水平。5.根据权利要求4所述的关键词识别方法,其特征在于,p1等于0.8,p2等于0.45。6.根据权利要求1所述的关键词识别方法,其特征在于,所述参考模板中包括瞬态噪声、静态噪声和特定人的丰富的语音内容的信息。7.一种关键词识别装置,其特征在于,包括:分帧处理单元,适于将获取的待识别的声音数据划分为多个重叠的声音帧;频域转换单元,适于对划分得到的多...
【专利技术属性】
技术研发人员:孙廷玮,
申请(专利权)人:展讯通信上海有限公司,
类型:发明
国别省市:上海,31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。