语音命令词识别方法、装置、设备和介质制造方法及图纸

技术编号:39007426 阅读:8 留言:0更新日期:2023-10-07 10:38
本申请属于语音识别技术领域,公开了一种语音命令词识别方法、装置、设备和介质,其中,通过将设定的命令词预先划分为第一级别命令词和第二级别命令词并构建两者之间的关系,然后实际识别时先从第一级别命令词列表中确定得分最高的第一级别命令词,然后计算得分最高的第一级别命令词对应的所有第二级别语音命令词的得分,将得分最高且满足设定阈值的第二级别语音命令词作为语音识别结果,由于不需要计算所有命令词的得分,因此,对于同一数量级的命令词,本申请相比于现有命令词识别方法对低资源设备更加很好,解码时间更少,解码速度更快,命令词识别速度更快,且对同一配置的低资源设备,能够支持识别更多的语音命令词。能够支持识别更多的语音命令词。能够支持识别更多的语音命令词。

【技术实现步骤摘要】
语音命令词识别方法、装置、设备和介质


[0001]本申请涉及到语音识别
,特别涉及到一种语音命令词识别方法、装置、设备和介质。

技术介绍

[0002]命令词识别属于语音识别,广泛应用于智能家居领域,比如智能语音音箱、智能语音耳机、智能语音灯、智能语音风扇等。嵌入式设备由于成本考虑,相比手机等智能设备,其算力低、内存和flash小。一般的命令词识别方法是对所有命令词进行打分,然后选取出命令词列表中得分最高的且满足设定阈值的命令词作为语音命令词的识别结果。比如,假设设计的语音产品是控制电风扇,那么,设计如下命令词:打开风扇、关闭风扇、一档风、二档风以及三档风,那么这里对所有命令词进行打分指的是需要分别计算打开风扇、关闭风扇、一档风、二档风以及三档风这些命令词的得分。然后,选取出得分最高的且超过设定阈值的 ,作为命令词识别的结果。然而,此方式随着命令词个数的增多,解码时间也会线性增加,这对低资源设备而言,增加了语音识别的处理时间,使得识别可能无法做到实时处理。即现有命令词识别方法导致低资源设备支持识别的语音命令词的数量不高。

技术实现思路

[0003]本申请的主要目的为提供一种语音命令词识别方法、装置、设备和介质,旨在解决现有命令词识别方法导致低资源设备支持识别的语音命令词的数量不高的技术问题。
[0004]为了实现上述申请目的,本申请第一方面提出一种语音命令词识别方法,所述方法包括:获取待识别的语音信号;对所述待识别的语音信号进行特征提取,生成特征向量;将所述特征向量特征输入声学模型,得到音素概率矩阵;获取预先设定的第一级别命令词列表;其中,所述第一级别命令词列表中包括多个第一级别命令词;根据所述音素概率矩阵计算各个第一级别命令词的得分;根据各个第一级别命令词的得分确定得分最高的第一级别命令词;判断所述得分最高的第一级别命令词是否大于预设的第一阈值;若否,重新获取语音信号进行识别;若是,判断所述得分最高的第一级别命令词是否有对应的第二级别命令词;其中,所述第二级别命令词是所述第一级别命令词的具体命令词;若所述得分最高的第一级别命令词没有对应的第二级别命令词,则将所述得分最高的第一级别命令词作为语音命令词识别结果;若所述得分最高的第一级别命令词有对应的第二级别命令词,则获取所述得分最高的第一级别命令词对应的各个第二级别命令词,作为待计算的第二级别命令词;
根据所述音素概率矩阵计算各个待计算的第二级别命令词的得分;根据各个第二级别命令词的得分确定得分最高的第二级别命令词;判断得分最高的第二级别命令词是否大于设定的第二阈值;若是,则将得分最高的第二级别命令词作为语音命令词识别结果;若否,则重新获取语音信号进行识别。
[0005]进一步的,所述第一级别命令词的得分根据如下步骤计算得到:在所述第一级别命令词每个字的中间以及所述第一级别命令词的前面和后面插入blank符号,得到变更后的第一级别命令词;根据字典中的字与音素的关系,将所述变更后的第一级别命令词转换为音素序列;根据所述音素概率矩阵,采用前向算法计算所述音素序列对应的所有路径的概率和,得到总概率值;按照预先设定的规则,将所述总概率值映射为得分,将所述得分作为所述第一级别命令词的得分。
[0006]进一步的,所述根据所述音素概率矩阵,采用前向算法计算所述音素序列对应的所有路径的概率和,得到总概率值的步骤包括:根据所述音素概率矩阵,采用前向算法进行解码,当解码走到通配符号时,将所述通配符的概率设定为1,继续前向算法直至得到所述音素序列对应的所有路径的概率和,得到总概率值。
[0007]进一步的,所述按照预先设定的规则,将所述总概率值映射为得分,将所述得分作为所述第一级别命令词的得分的步骤之前,还包括:对所述总概率值进行归一化,得到归一化后的总概率值。
[0008]进一步的,所述对所述总概率值进行归一化,得到归一化后的总概率值的步骤包括:根据公式 normlen =a

b

c计算归一化长度;其中,normlen 表示归一化长度,a表示解码的时间区间长度,b表示该时间区间长度范围内blank概率的累加值,c表示通配符的长度根据公式p
总=
exp(log p(y|x)/normlen)计算归一化后的总概率值;其中,x表示待识别的语音信号, y表示音素序列,p(y|x)表示所述总概率值。
[0009]进一步的,所述第二级别的语音命令词得分根据如下步骤计算得到:在所述第二级别命令词每个字的中间以及所述第二级别命令词的前面和后面插入blank符号,得到变更后的第二级别命令词;根据字典中的字与音素的关系,将所述变更后的第二级别命令词转换为音素序列;根据所述音素概率矩阵,采用前向算法计算所述音素序列对应的所有路径的概率和,得到总概率值;按照预先设定的规则,将所述总概率值映射为得分,将所述得分作为所述第二级别命令词的得分。
[0010]在一个实施例中,所述预先设定的第一级别命令词和/或所述第二级别命令词包
括不连续字形的命令词。
[0011]第二方面,本申请实施例提供一种语音命令词识别装置,包括:第一获取模块,用于获取待识别的语音信号;特征提取模块,用于对所述待识别的语音信号进行特征提取,生成特征向量;输入模块,用于将所述特征向量特征输入声学模型,得到音素概率矩阵;第二获取模块,用于获取预先设定的第一级别命令词列表;其中,所述第一级别命令词列表中包括多个第一级别命令词;第一计算模块,用于根据所述音素概率矩阵计算各个第一级别命令词的得分;第一确定模块,用于根据各个第一级别命令词的得分确定得分最高的第一级别命令词;第一判断模块,用于判断所述得分最高的第一级别命令词是否大于预设的第一阈值;所述第一获取模块,还用于若否,重新获取语音信号进行识别;第二判断模块,用于若是,判断所述得分最高的第一级别命令词是否有对应的第二级别命令词;其中,所述第二级别命令词是所述第一级别命令词的具体命令词;语音命令词识别结果确定模块,用于若所述得分最高的第一级别命令词没有对应的第二级别命令词,则将所述得分最高的第一级别命令词作为语音命令词识别结果;第三获取模块,用于若所述得分最高的第一级别命令词有对应的第二级别命令词,则获取所述得分最高的第一级别命令词对应的各个第二级别命令词,作为待计算的第二级别命令词;第二计算模块,用于根据所述音素概率矩阵计算各个待计算的第二级别命令词的得分;第二确定模块,用于根据各个第二级别命令词的得分确定得分最高的第二级别命令词;第三判断模块,用于判断得分最高的第二级别命令词是否大于设定的第二阈值;所述语音命令词识别结果确定模块,还用于若是,则将得分最高的第二级别命令词作为语音命令词识别结果;所述第一获取模块,还用于若否,则重新获取语音信号进行识别。
[0012]本申请第三方面提出一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现如上述任一项所述的语音命令词识别方法的步骤。
[0013]本申请第四方面提出一种计本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音命令词识别方法,其特征在于,所述方法包括:获取待识别的语音信号;对所述待识别的语音信号进行特征提取,生成特征向量;将所述特征向量特征输入声学模型,得到音素概率矩阵;获取预先设定的第一级别命令词列表;其中,所述第一级别命令词列表中包括多个第一级别命令词;根据所述音素概率矩阵计算各个第一级别命令词的得分;根据各个第一级别命令词的得分确定得分最高的第一级别命令词;判断所述得分最高的第一级别命令词是否大于预设的第一阈值;若否,重新获取语音信号进行识别;若是,判断所述得分最高的第一级别命令词是否有对应的第二级别命令词;其中,所述第二级别命令词是所述第一级别命令词的具体命令词;若所述得分最高的第一级别命令词没有对应的第二级别命令词,则将所述得分最高的第一级别命令词作为语音命令词识别结果;若所述得分最高的第一级别命令词有对应的第二级别命令词,则获取所述得分最高的第一级别命令词对应的各个第二级别命令词,作为待计算的第二级别命令词;根据所述音素概率矩阵计算各个待计算的第二级别命令词的得分;根据各个第二级别命令词的得分确定得分最高的第二级别命令词;判断得分最高的第二级别命令词是否大于设定的第二阈值;若是,则将得分最高的第二级别命令词作为语音命令词识别结果;若否,则重新获取语音信号进行识别。2.根据权利要求1所述的语音命令词识别方法,其特征在于,所述第一级别命令词的得分根据如下步骤计算得到:在所述第一级别命令词每个字的中间以及所述第一级别命令词的前面和后面插入blank符号,得到变更后的第一级别命令词;根据字典中的字与音素的关系,将所述变更后的第一级别命令词转换为音素序列;根据所述音素概率矩阵,采用前向算法计算所述音素序列对应的所有路径的概率和,得到总概率值;按照预先设定的规则,将所述总概率值映射为得分,将所述得分作为所述第一级别命令词的得分。3.根据权利要求2所述的语音命令词识别方法,其特征在于,所述根据所述音素概率矩阵,采用前向算法计算所述音素序列对应的所有路径的概率和,得到总概率值的步骤包括:根据所述音素概率矩阵,采用前向算法进行解码,当解码走到通配符号时,将所述通配符的概率设定为1,继续前向算法直至得到所述音素序列对应的所有路径的概率和,得到总概率值。4.根据权利要求2所述的语音命令词识别方法,其特征在于,所述按照预先设定的规则,将所述总概率值映射为得分,将所述得分作为所述第一级别命令词的得分的步骤之前,还包括:对所述总概率值进行归一化,得到归一化后的总概率值。
5.根据权利要求4所述的语音命令词识别方法,其特征在于,所述对所述总概率值进行归一化,得到归一化后的总概率值的步骤包括:根据公式 normlen =a

b

c计算归一化长度;其中,normlen 表示归一化长度,a表示解码的时间区间长度,b表示该时间区间长度范围内blank概率的累加值,c表示通配符的长度根据公式p
总=
e...

【专利技术属性】
技术研发人员:李杰
申请(专利权)人:深圳市友杰智新科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1