【技术实现步骤摘要】
一种关键词的语音识别方法及装置
[0001]本申请涉及语音识别
,尤其涉及一种关键词的语音识别方法及装置。
技术介绍
[0002]随着技术的发展,智能语音识别的应用场景越来越广泛。其中,关键词唤醒是语音识别的第一步,具有较高鲁棒性的关键词识别方案可以优化人机交互体验,给后续的智能应用提供基础。
[0003]现有技术中,一般通过模式识别的方法进行关键词识别。具体包括:首先选取一段时间窗口,对时间窗口内的采样数据进行短时傅里叶变换,然后获取时间窗口内的采样数据对应的离散余弦倒谱系数,将该离散余弦倒谱系数作为语音特征输入到神经网络中进行分类,最终确定目标关键词存在的概率。
[0004]上述技术方案存在以下问题:在选择时间窗口时,需要以最长关键词所需要的最长预估时间作为固定的时间窗口,这样会导致一个时间窗口内语音存在的位置并不固定。在多关键词训练时,如果耗时最长的关键词与耗时最短的关键词的时长相差太大,模式识别任务很难学习到完整的关键词发音特征,从而导致较大的误唤醒存在。而且,当时间窗口中同时存在多个关键词的语 ...
【技术保护点】
【技术特征摘要】
1.一种关键词的语音识别方法,其特征在于,所述方法包括:获取一段时长的语音信号,并计算所述语音信号的语音识别特征;将所述语音识别特征输入神经网络模型,通过所述神经网络模型确定目标关键词的N个分类标签在所述语音信号中分别存在的概率,N为正整数;根据所述目标关键词的N个分类标签在所述语音信号中分别存在的概率,确定所述目标关键词的N个分类标签在所述语音信号中共同存在的概率;若所述目标关键词的N个分类标签在所述语音信号中共同存在的概率大于或等于设定阈值,则确定所述语音信号中存在所述目标关键词。2.根据权利要求1所述的方法,其特征在于,所述目标关键词的N个分类标签通过对所述目标关键词按照音素、字或词的粒度进行划分得到。3.根据权利要求1所述的方法,其特征在于,所述目标关键词的N个分类标签在所述语音信号中共同存在的概率与所述语音识别特征分别对应所述目标关键词的N个分类标签的概率相关联。4.根据权利要求1所述的方法,其特征在于,所述计算所述语音信号的语音识别特征,包括:按照设定的窗长和步长对所述语音信号进行分帧;针对每帧语音信号,通过对该帧语音信号进行短时傅里叶变换,确定该帧语音信号的时频特征;根据所述时频特征,确定基于过滤器组的特征和梅尔频率倒谱系数。5.根据权利要求4所述的方法,其特征在于,所述窗长大于或等于所述目标关键词的分类标签的最长发音长度,所述步长小于或等于所述窗...
【专利技术属性】
技术研发人员:陈锦明,吴涛,李倩,
申请(专利权)人:恒玄科技上海股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。