一种语音识别系统和方法技术方案

技术编号：23941139 阅读：34 留言：0更新日期：2020-04-25 05:08

本申请涉及用于提供语音识别的系统和方法。该方法包括接收包括多个语音数据帧的语音信号。该方法还包括确定每个帧的语音特征，该语音特征与一个或以上标签相关。该方法还包括基于语音特征确定关于一个或以上标签的一个或以上得分。该方法还包括以预设间隔对多个帧进行采集。该方法还包括获得与每个采集帧相关联的标签的分数。该方法还包括基于所获得的与采集帧相关联的标签的分数来生成唤醒设备的指令。

A speech recognition system and method

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】一种语音识别系统和方法
本申请涉及语音识别系统，特别涉及一种基于跳帧搜索的语音识别系统和方法。
技术介绍
语音识别技术广泛用于各种领域，例如移动终端，智能家居等领域。语音识别技术是基于用户输入的语音达成唤醒目标对象的效果，目标对象包括设备，系统或应用程序。具体是预先设置唤醒短语，当用户输入的语音经过识别，如果识别结果是包括预设的唤醒短语时，将目标对象从睡眠模式或待机模式唤醒。但语音识别可能存在不准确的情况，导致生成错误警报从而唤醒目标对象。因此，希望开发一种更准确的语音识别的系统和方法。
技术实现思路
根据本申请的一个方面，提供了一种用于语音识别的系统。该系统包括至少一个存储介质和至少一个处理器，至少一个存储介质储存一组指令，至少一个处理器被配置为与存储介质进行通信。当系统执行一组指令时，指示至少一个处理器执行以下操作中的一个或以上，例如，接收包括至少两个语音数据帧的语音信号；确定至少两个帧的语音信号中的每个帧的语音特征，确定该语音特征相关的一个或以上标签；基于语音特征确定关于一个或以上标签的一个或以上得分；在预设间隔中采集至少两个帧，采集的帧按照一个或以上标签的序列对应于一个或以上标签中的至少一部分；获得与每个采集帧相关联的标签的分数；并且基于所获得的与采集帧相关联的标签的分数来生成唤醒设备的指令。在一些实施例中，至少一个处理器还可以用于至少两个语音数据帧中的每个帧，对其一个或以上标签的一个或以上得分执行平滑操作。在一些实施例中，为了对至少两个语音数据帧中的每个帧的一个或以上标签...

【技术保护点】
1.一种用于提供语音识别的系统，其特征在于包括：/n存储一组指令的至少一个存储介质；以及/n至少一个处理器，被配置为与所述至少一个存储介质通信，其中，当执行所述指令时，所述至少一个处理器用于：/n接收包括至少两个语音数据帧的语音信号；/n确定至少两个帧中的每个帧的语音特征，该语音特征与一个或以上标签相关；/n基于语音特征确定关于一个或以上标签的一个或以上得分；/n在预设间隔中采集至少两个帧，采集的帧按照一个或以上标签的序列对应于一个或以上标签中的至少一部分；/n获得与每个采集帧相关联的标签的分数；以及/n基于所获得的与采集的帧相关联的标签的分数，生成唤醒设备的指令。/n

【技术特征摘要】
【国外来华专利技术】1.一种用于提供语音识别的系统，其特征在于包括：
存储一组指令的至少一个存储介质；以及
至少一个处理器，被配置为与所述至少一个存储介质通信，其中，当执行所述指令时，所述至少一个处理器用于：
接收包括至少两个语音数据帧的语音信号；
确定至少两个帧中的每个帧的语音特征，该语音特征与一个或以上标签相关；
基于语音特征确定关于一个或以上标签的一个或以上得分；
在预设间隔中采集至少两个帧，采集的帧按照一个或以上标签的序列对应于一个或以上标签中的至少一部分；
获得与每个采集帧相关联的标签的分数；以及
基于所获得的与采集的帧相关联的标签的分数，生成唤醒设备的指令。

2.如权利要求1所述的系统，其特征在于，所述至少一个处理器还用于：
对于至少两个帧中的每个帧，对一个或以上标签的一个或以上分数执行平滑操作。

3.如权利要求2所述的系统，其特征在于，对于所述至少两个帧中的每个帧，对一个或以上标签的一个或以上分数执行平滑操作，所述至少一个处理器用于：
确定相对于当前帧的平滑窗口；
确定平滑窗口中与当前帧相关联的至少一个帧；
确定所述至少一个帧的一个或以上标签的分数；
基于所述至少一个帧的一个或以上标签的分数，确定当前帧的一个或以上标签中的每个标签的平均分数；以及
将当前帧的一个或以上标签中的每一个标签的平均分数指定为当前帧的一个或以上标签中的每一个标签的分数。

4.如权利要求1所述的系统，其特征在于，所述一个或以上标签涉及用于唤醒所述设备的唤醒短语，并且所述唤醒短语包括至少一个单词。

5.如权利要求1所述的系统，其特征在于，基于所述一个或以上语音特征确定关于所述一个或以上标签的一个或以上得分，所述至少一个处理器用于：
确定神经网络模型；
将与所述至少两个帧对应的一个或以上语音特征输入到神经网络模型中；以及
针对一个或以上语音特征中的每一个语音特征生成关于一个或以上标签的一个或以上分数。

6.如权利要求1所述的系统，其特征在于，为了在预设间隔中对所述至少两个帧进行采集，所述至少一个处理器用于：
确定搜索窗口的预定宽度，搜索窗口的预定宽度与唤醒短语中的单词数量有关；以及
确定搜索窗口中的帧数，所述帧数按照所述序列对应于第一数量的标签。

7.如权利要求6所述的系统，其特征在于，为了基于所获得的与所述采集帧相关联的标签的分数来生成唤醒设备的指令，所述至少一个处理器用于：
基于与采集帧对应的一个或以上标签的分数确定最终分数；
确定所述最终得分是否大于阈值；以及
响应于所述最终得分大于所述阈值，
生成唤醒所述设备的指令。

8.如权利要求7所述的系统，其特征在于，所述最终得分是与所述采集的帧相关联的标签的得分的乘积的开方。

9.如权利要求7所述的系统，其特征在于，所述至少一个处理器还用于：
响应于所述最终得分不大于所述阈值，
将搜索窗口向前移动一步。

10.如权利要求1所述的系统，其特征在于为了确定所述至少两个帧中的每个帧的一个或以上语音特征，所述至少一个处理器用于：
将所述语音信号从时域变换到频域；以及
对变换后的语音信号进行离散化以获得与所述至少两个帧相对应的一个或以上语音特征。

11.一种用于在具有一个或以上处理器和一个或以上存储设备的计算设备上实现的语音识别的方法，其特征在于，所述方法包括：
接收包括至少两个语音数据帧...

【专利技术属性】
技术研发人员：周荣，
申请(专利权)人：北京嘀嘀无限科技发展有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人