当前位置: 首页 > 专利查询>清华大学专利>正文

一种语音关键词识别方法及系统技术方案

技术编号:34630197 阅读:31 留言:0更新日期:2022-08-24 15:01
本发明专利技术提供一种语音关键词识别方法及系统,该方法包括:对待识别的模拟语音信号进行全频带特征提取,获取模拟语音关键词特征向量;将所述模拟语音关键词特征向量输入到训练好的特征配置模型中,获取语音关键词识别结果,其中,所述训练好的特征配置模型是通过标记有关键词类型标签的样本模拟语音关键词特征向量和预设准确率损失阈值,对神经网络模型进行训练得到的,所述神经网络模型包括多个子网络,且每个子网络识别对应的关键词;根据所述语音关键词识别结果,将所述训练好的特征配置模型中对应的子网络执行开启和关闭操作。本发明专利技术实现了动态调整的特征可配置性,在保持准确率的前提下,进一步降低了KWS系统的功耗和计算延迟。计算延迟。计算延迟。

【技术实现步骤摘要】
一种语音关键词识别方法及系统


[0001]本专利技术涉及语音识别
,尤其涉及一种语音关键词识别方法及系统。

技术介绍

[0002]物联网(IoT)设备是承载语音交互的重要场景,图1为本专利技术提供的在现有技术实际应用场景中IoT设备识别不同关键词种类的示意图,如图1所示,窗帘控制器的关键词是“开窗”、“关窗”、“停止”,台灯的关键词是“开灯”、“关灯”。传统的解决方案是,从不同IoT设备采集的原始语音数据会发送到中央处理器,处理后再将结果返回,这会导致较大的延时和收发数据带来的功耗。语音关键词识唤醒(Keyword Spotting,简称KWS)模块负责实时检测用户是否说出预先设定的关键词来唤醒设备,通常该模块会被嵌入到各式IoT设备中来专门识别用户的指令,大大减少了传入到中央处理器的数据,例如只有通过KWS模块唤醒的设备才会传送数据到中央处理器进行语音识别,完成更加复杂的交互。由于关键词唤醒的场景具有有效数据稀疏、常开和实时的特点,终端设备的能源以及计算能力又受到限制,设备常开会消耗大量的能量,导致待机时间短,还会严重影响用户体验;同时本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种语音关键词识别方法,其特征在于,包括:对待识别的模拟语音信号进行全频带特征提取,获取模拟语音关键词特征向量;将所述模拟语音关键词特征向量输入到训练好的特征配置模型中,获取语音关键词识别结果,其中,所述训练好的特征配置模型是通过标记有关键词类型标签的样本模拟语音关键词特征向量和预设准确率损失阈值,对神经网络模型进行训练得到的,所述神经网络模型包括多个子网络,且每个子网络识别对应的关键词;根据所述语音关键词识别结果,将所述训练好的特征配置模型中对应的子网络执行开启和关闭操作。2.根据权利要求1所述的语音关键词识别方法,其特征在于,所述训练好的特征配置模型通过以下步骤训练得到:根据标记有不同关键词类型标签的样本模拟语音关键词特征向量,构建多个训练样本集;将每个训练样本集输入到对应的初始子网络进行训练,获取多个第一子网络,以及对应的第一关键词识别准确率;根据预设准确率损失阈值,对每个第一关键词识别准确率进行判断,若满足预设条件,得到训练好的特征配置模型。3.根据权利要求2所述的语音关键词识别方法,其特征在于,所述根据预设准确率损失阈值,对每个第一关键词识别准确率进行判断,若满足预设条件,得到训练好的特征配置模型,包括:步骤S1,根据第一关键词识别准确率,得到第一关键词识别准确率损失值,并根据预设准确率损失阈值,对每个第一关键词识别准确率损失值进行判断;步骤S2,若判断获知第一关键词识别准确率损失值小于等于所述预设准确率损失阈值,则对所述样本模拟语音关键词特征向量进行降维处理,得到降维后的样本模拟语音关键词特征向量;步骤S3,将所述降维后的样本模拟语音关键词特征向量,输入到对应的第一子网络中进行训练,得到第二子网络和对应的第二关键词识别准确率,根据第二关键词识别准确率得到第二关键词识别准确率损失值,若判断获知第二关键词识别准确率损失值大于所述预设准确率损失阈值,得到训练好的特征配置模型;否则,将所述降维后的样本模拟语音关键词特征向量、第二子网络以及第二关键词识别准确率用于下一轮训练,重新执行步骤S2至步骤S3,直到满足当前训练过程中得到的关键词识别准确率损失值大于所述预设准确率损失阈值。4.根据权利要求1所述的语音关键词识别方法,其特征在于,所述对待识别的模拟语音信号进行全频带特征提取,获取模拟...

【专利技术属性】
技术研发人员:李钦乔飞李桐
申请(专利权)人:清华大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1