关键词识别方法及装置制造方法及图纸

技术编号:15765116 阅读:406 留言:0更新日期:2017-07-06 07:10
关键词识别方法及装置,所述方法包括:将获取的待识别声音数据划分为多个重叠的声音帧;对划分得到的多个声音帧的声音信号分别进行快速傅立叶变换运算,得到对应的频谱能量;将各个声音帧对应的频谱能量转换为梅尔频率下的频谱能量,并计算对应的MFCC参数;根据各个声音帧对应的MFCC参数,分别计算得到所述待识别声音数据与预设的多个参考模板之间的DTW距离中值、欧氏距离中值和互相关距离中值;当确定所述待识别声音数据与当前参考模板之间的DTW距离中值、欧氏距离中值和互相关距离中值的均值小于预设的阈值时,将当前参考模板中的关键词作为识别结果。上述的方案,可以提高关键词识别的准确率,并节约计算资源。

Keywords identification method and device

Keywords recognition method and device, the method comprises: acquiring the voice recognition data is divided into a plurality of overlapping sound frames; the sound signals of a plurality of voice frames are divided by the fast Fu Liye transform, get the corresponding energy spectrum; each sound frame corresponding to the spectral energy into energy spectrum Mel frequency, and calculate the MFCC parameters; according to the MFCC parameters of each audio frame corresponding to the calculated Euclidean distance, the median DTW between identifying a plurality of voice data with the preset reference template from the median and median correlation distance; when determining the identified voice data and the mean current reference template the DTW distance between the median and median Euclidean distance and correlation distance of the median is less than a preset threshold value, the current reference template as keywords Recognition result. The proposed scheme can improve the accuracy of keyword recognition and save computing resources.

【技术实现步骤摘要】
关键词识别方法及装置
本专利技术涉及语音识别
,特别是涉及一种关键词识别方法及装置。
技术介绍
语音识别是机器通过识别和理解过程将人的语音转换为对应的文本或指令的技术。作为语音识别领域的一个重要分支,关键词(IsolatedWordRecognition,IWR)识别在通信、消费电子、自助服务、办公自动化等领域得到了广泛的应用。现有技术中,一般采用隐马尔可夫模型(HiddenMarkovModel,HMM)hiddenMarkovmodels(HMMs)及其对应的参数,或者关键词识别系统(KWS)进行关键词识别。但是,现有技术中关键词识别方法需要建立对应的模型,并需要对应的翻译操作训练模型参数,存在着计算量大且识别准确率低的问题。
技术实现思路
本专利技术实施例解决的问题是提高关键词识别的准确率,并节约计算资源。为解决上述问题,本专利技术实施例提供了一种关键词识别方法,所述关键词识别方法包括:将获取的待识别声音数据划分为多个重叠的声音帧;对划分得到的多个声音帧的声音信号分别进行快速傅立叶变换运算,得到对应的频谱能量;将各个声音帧对应的频谱能量转换为梅尔频率下的频谱能量,并计算对应的MFCC参数;根据各个声音帧对应的MFCC参数,分别计算得到所述待识别声音数据与预设的多个参考模板之间的DTW距离中值、欧氏距离中值和互相关距离中值;当确定所述待识别声音数据与当前参考模板之间的DTW距离中值、欧氏距离中值和互相关距离中值的均值小于预设的阈值时,将当前参考模板中的关键词作为识别结果。可选地,在所述待识别声音数据的频谱能量大于预设的能量阈值时,执行所述将各个声音帧对应的频谱能量转换为梅尔频率下的频谱能量,并计算对应的MFCC参数的操作。可选地,所述预设的阈值与所述待识别声音数据的噪音水平相关联。可选地,所述待识别声音数据的噪音水平包括低噪音水平、中等噪音水平和高噪音水平,其中:当p≥p1时,确定所述待识别声音数据具有低噪音水平,p表示所述待识别声音数据对应的绝对幅值,p1为预设的第一阈值;当p2≥p>p1时,确定所述待识别声音数据具有中等噪音水平,p2为预设的第二阈值,且p1>p2;当p<p2时,确定所述待识别声音数据具有高噪音水平。可选地,p1等于0.8,p2等于0.45。可选地,所述参考模板中包括瞬态噪声、静态噪声和特定人的丰富的语音内容的信息。本专利技术实施例还提供了一种关键词识别装置,所述装置包括:分帧处理单元,适于将获取的待识别的声音数据划分为多个重叠的声音帧;频域转换单元,适于对划分得到的多个声音帧的声音信号分别进行快速傅立叶变换运算,得到对应的频谱能量;第一计算单元,适于将各个声音帧对应的频谱能量转换为梅尔频率下的频谱能量,并计算对应的MFCC参数;第二计算单元,适于根据各个声音帧对应的MFCC参数,分别计算得到所述待识别声音数据与预设的多个参考模板之间的DTW距离中值、欧氏距离中值和互相关距离中值;判断单元,适于判断当前声音帧与当前参考模板之间的DTW距离中值、欧氏距离中值和互相关距离中值三者的均值是否小于预设的阈值;关键词识别单元,适于当确定所述待识别声音数据与当前参考模板之间的DTW距离中值、欧氏距离中值和互相关距离中值的均值小于预设的阈值时,将当前参考模板中的关键词作为识别结果。可选地,还包括触发单元,所述触发单元适于在所述待识别声音数据的频谱能量大于预设的能量阈值时,触发所述第一计算单元执行所述将各个声音帧对应的频谱能量转换为梅尔频率下的频谱能量,并计算对应的MFCC参数的操作。可选地,所述预设的阈值与所述待识别声音数据的噪音水平相关联。可选地,所述待识别声音数据的噪音水平包括低噪音水平、中等噪音水平和高噪音水平,其中:当p≥p1时,确定所述待识别声音数据具有低噪音水平,p表示所述待识别声音数据对应的绝对幅值,p1为预设的第一阈值;当p2≥p>p1时,确定所述待识别声音数据具有中等噪音水平,p2为预设的第二阈值,且p1>p2;当p<p2时,确定所述待识别声音数据具有高噪音水平。可选地,p1等于0.8,p2等于0.45。可选地,所述参考模板中包括瞬态噪声、静态噪声和特定人的丰富的语音内容的信息。与现有技术相比,本专利技术的技术方案具有以下的优点:上述的方案,通过基于对应MFCC参数计算得到的待识别声音数据与参考模板之间的DTW距离中值、欧氏距离中值和互相关距离中值的均值与预设的阈值进行比较,来确定声音帧中是否包括关键词,而无需建立对应的数学识别模型,也不需要对关键词进行相应的翻译,因此,可以节关键词识别的的计算资源,并可以提高关键词识别的准确率。进一步地,当待识别声音数据的频谱能量大于预设的能量阈值时,才对对应的待识别声音数据进行关键词识别,反之,则不对待识别声音数据进行关键词识别,因此,可以进一步节约计算资源,并提高关键词识别的速度。进一步地,在录制对应的参考模板时,所述参考模板中包括瞬态噪声、静态噪声和特定人的丰富的语音内容的信息,使得参考模板可以与对应的特定人的语音和语音所属环境进行较为准确地记录,因此,可以进一步提高关键词识别的准确性。附图说明图1是本专利技术实施例中的一种关键词识别方法的流程图;图2是本专利技术实施例中的另一种关键词识别方法的流程图;图3是本专利技术实施例中的一种关键词识别装置的结构示意图。具体实施方式为解决现有技术中存在的上述问题,本专利技术实施例采用的技术方案通过在确定待识别声音数据与参考模板之间的DTW距离中值、欧氏距离中值和互相关距离中值的均值与预设的阈值进行比较,来确定声音帧中是否包括关键词,可以节关键词识别的计算资源,并可以提高关键词识别的准确率。为使本专利技术的上述目的、特征和优点能够更为明显易懂,下面结合附图对本专利技术的具体实施例做详细的说明。图1示出了本专利技术实施例中的一种关键词识别方法的流程图。如图1所示的关键词识别方法,可以包括如下步骤:步骤S101:将获取的待识别声音数据划分为多个重叠的声音帧。在具体实施中,各个声音帧之间的重叠部分的大小可以根据实际的需要进行设置。例如,当各个声音帧的长度为32ms时,相邻声音帧之间的重叠部分的大小可以为16ms。步骤S102:对划分得到的多个声音帧的声音信号分别进行快速傅立叶变换运算,得到对应的频谱能量。在具体实施中,划分得到的多个声音信号为时域的声音信号,通过快速傅立叶变换运算(FFT),可以将时域的声音信号转换为频域的声音信号。步骤S103:将各个声音帧对应的频谱能量转换为梅尔频率下的频谱能量,并计算对应的MFCC参数。在具体实施中,经过快速傅立叶变换运算得到声音信号的频谱能量(功率谱),可以按照预设的对应关系,转换为梅尔频率下的频谱能量,并根据梅尔频率下的频谱能量,计算各个声音帧对应的梅尔频率倒谱系数(MelFrequencyCepstrumCoefficient,MFCC)参数。步骤S104:根据各个声音帧对应的MFCC参数,分别计算得到所述待识别声音数据与预设的多个参考模板之间的DTW距离中值、欧氏距离中值和互相关距离中值。在具体实施中,预设的多个参考模板中分别包括对应的关键词的语音内容。其中,预设的参考模板的数量可以根据实际的需要进行设置,本专利技术在此不做限制。步骤S105:当确定所述待识别声音数据与当前参考模板之本文档来自技高网...
关键词识别方法及装置

【技术保护点】
一种关键词识别方法,其特征在于,包括:将获取的待识别声音数据划分为多个重叠的声音帧;对划分得到的多个声音帧的声音信号分别进行快速傅立叶变换运算,得到对应的频谱能量;将各个声音帧对应的频谱能量转换为梅尔频率下的频谱能量,并计算对应的MFCC参数;根据各个声音帧对应的MFCC参数,分别计算得到所述待识别声音数据与预设的多个参考模板之间的DTW距离中值、欧氏距离中值和互相关距离中值;当确定所述待识别声音数据与当前参考模板之间的DTW距离中值、欧氏距离中值和互相关距离中值的均值小于预设的阈值时,将当前参考模板中的关键词作为识别结果。

【技术特征摘要】
1.一种关键词识别方法,其特征在于,包括:将获取的待识别声音数据划分为多个重叠的声音帧;对划分得到的多个声音帧的声音信号分别进行快速傅立叶变换运算,得到对应的频谱能量;将各个声音帧对应的频谱能量转换为梅尔频率下的频谱能量,并计算对应的MFCC参数;根据各个声音帧对应的MFCC参数,分别计算得到所述待识别声音数据与预设的多个参考模板之间的DTW距离中值、欧氏距离中值和互相关距离中值;当确定所述待识别声音数据与当前参考模板之间的DTW距离中值、欧氏距离中值和互相关距离中值的均值小于预设的阈值时,将当前参考模板中的关键词作为识别结果。2.根据权利要求1所述的关键词识别方法,其特征在于,在所述待识别声音数据的频谱能量大于预设的能量阈值时,执行所述将各个声音帧对应的频谱能量转换为梅尔频率下的频谱能量,并计算对应的MFCC参数的操作。3.根据权利要求1所述的关键词识别方法,其特征在于,所述预设的阈值与所述待识别声音数据的噪音水平相关联。4.根据权利要求3所述的关键词识别方法,其特征在于,所述待识别声音数据的噪音水平包括低噪音水平、中等噪音水平和高噪音水平,其中:当p≥p1时,确定所述待识别声音数据具有低噪音水平,p表示所述待识别声音数据对应的绝对幅值,p1为预设的第一阈值;当p2≥p>p1时,确定所述待识别声音数据具有中等噪音水平,p2为预设的第二阈值,且p1>p2;当p<p2时,确定所述待识别声音数据具有高噪音水平。5.根据权利要求4所述的关键词识别方法,其特征在于,p1等于0.8,p2等于0.45。6.根据权利要求1所述的关键词识别方法,其特征在于,所述参考模板中包括瞬态噪声、静态噪声和特定人的丰富的语音内容的信息。7.一种关键词识别装置,其特征在于,包括:分帧处理单元,适于将获取的待识别的声音数据划分为多个重叠的声音帧;频域转换单元,适于对划分得到的多...

【专利技术属性】
技术研发人员:孙廷玮
申请(专利权)人:展讯通信上海有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1