一种语音识别系统和方法技术方案

技术编号:23941139 阅读:34 留言:0更新日期:2020-04-25 05:08
本申请涉及用于提供语音识别的系统和方法。该方法包括接收包括多个语音数据帧的语音信号。该方法还包括确定每个帧的语音特征,该语音特征与一个或以上标签相关。该方法还包括基于语音特征确定关于一个或以上标签的一个或以上得分。该方法还包括以预设间隔对多个帧进行采集。该方法还包括获得与每个采集帧相关联的标签的分数。该方法还包括基于所获得的与采集帧相关联的标签的分数来生成唤醒设备的指令。

A speech recognition system and method

【技术实现步骤摘要】
【国外来华专利技术】一种语音识别系统和方法
本申请涉及语音识别系统,特别涉及一种基于跳帧搜索的语音识别系统和方法。
技术介绍
语音识别技术广泛用于各种领域,例如移动终端,智能家居等领域。语音识别技术是基于用户输入的语音达成唤醒目标对象的效果,目标对象包括设备,系统或应用程序。具体是预先设置唤醒短语,当用户输入的语音经过识别,如果识别结果是包括预设的唤醒短语时,将目标对象从睡眠模式或待机模式唤醒。但语音识别可能存在不准确的情况,导致生成错误警报从而唤醒目标对象。因此,希望开发一种更准确的语音识别的系统和方法。
技术实现思路
根据本申请的一个方面,提供了一种用于语音识别的系统。该系统包括至少一个存储介质和至少一个处理器,至少一个存储介质储存一组指令,至少一个处理器被配置为与存储介质进行通信。当系统执行一组指令时,指示至少一个处理器执行以下操作中的一个或以上,例如,接收包括至少两个语音数据帧的语音信号;确定至少两个帧的语音信号中的每个帧的语音特征,确定该语音特征相关的一个或以上标签;基于语音特征确定关于一个或以上标签的一个或以上得分;在预设间隔中采集至少两个帧,采集的帧按照一个或以上标签的序列对应于一个或以上标签中的至少一部分;获得与每个采集帧相关联的标签的分数;并且基于所获得的与采集帧相关联的标签的分数来生成唤醒设备的指令。在一些实施例中,至少一个处理器还可以用于至少两个语音数据帧中的每个帧,对其一个或以上标签的一个或以上得分执行平滑操作。在一些实施例中,为了对至少两个语音数据帧中的每个帧的一个或以上标签的一个或以上得分执行平滑操作,可以指示至少一个处理器确定关于当前帧的平滑窗口;确定平滑窗口中与当前帧相关联的至少一个帧;确定所述至少一个帧的一个或以上标签的分数;基于所述至少一个帧的一个或以上标签的分数,确定当前帧的一个或以上标签中的每个标签的平均分数;并且将当前帧的一个或以上标签中的每个标签的平均分数指定为当前帧的一个或以上标签中的每个标签的分数。在一些实施例中,一个或以上标签可能涉及用于唤醒设备的唤醒短语,其中唤醒短语可以包括至少一个单词。在一些实施例中,为了确定基于一个或以上语音特征关于一个或以上标签的一个或以上得分,可以指示至少一个处理器确定神经网络模型;将与所述至少两个帧对应的一个或以上语音特征输入到神经网络模型中;并且针对一个或以上语音特征中的每一个语音特征,生成关于其一个或以上标签的一个或以上分数。在一些实施例中,为了基于所获得的与采集帧相关的标签的得分来生成唤醒设备的指令,至少一个处理器可以根据与采集帧对应的一个或以上标签的得分来确定最终得分;确定所述最终得分是否大于阈值;在确定最终得分大于阈值之后做出响应,可以指示至少一个处理器生成唤醒设备的指令。在一些实施例中,最终得分可以是与采集帧相关联的标签的得分的乘积的开方。在一些实施例中,作为对于确定最终得分不大于阈值的响应,至少一个处理器可能被进一步指示为向前移动搜索窗口。在一些实施例中,为了确定至少两个帧中的每个帧的一个或以上语音特征,可以指示至少一个处理器将所述语音信号从时域变换到频域;并且对变换的语音信号进行离散化以获得与所述至少两个帧相对应的一个或以上语音特征。根据本申请的另一方面,可以确定用于提供语音识别的方法。该方法可以在计算设备上实现,该计算设备具有至少一个处理器和至少一个计算机可读存储介质。该方法可以包括,例如,接收包含至少两个语音数据帧的语音信号;确定至少两个帧中的每个帧的语音特征,确定与语音特征相关的一个或以上标签;基于语音特征确定相关的一个或以上标签的一个或以上得分;在预设间隔中对至少两个帧进行采集,所采集的帧按照所述一个或以上标签的序列对应于所述一个或以上标签中的至少一部分;获得与每个采集帧相关联的标签的分数;基于所获得的与采集帧相关联的标签的分数,生成唤醒设备的指令。根据本申请的又一方面,提供了一种非暂时性计算机可读介质。非暂时性计算机可读介质可以包括用于提供语音识别的至少一组指令,当由计算机设备的至少一个处理器执行时,该至少一组指令使计算设备执行方法。该方法可以包括,例如,接收包括至少两个语音数据帧的语音信号;确定至少两个帧中的每个帧的语音特征,确定与语音特征相关的一个或以上标签;基于语音特征确定关于一个或以上标签的一个或以上得分;在预设间隔中对至少两个帧进行采集,所采集的帧按照所述一个或以上标签的序列对应于所述一个或以上标签中的至少一部分;获得与每个采集帧相关联的标签的分数;基于所获得的与采集帧相关联的标签的分数,生成唤醒设备的指令。关于另外的特征,一部分将在下面的描述中阐述,一部分对于本领域技术人员来说,在研究下文和附图时显而易见,或者可以通过实施例的制造或操作来学习。因此,可以通过实践或使用下面讨论的详细示例中阐述的方法、手段和组合的各个方面来实现和获得本申请的特征。附图说明本申请根据示例性实施例来进一步描述。参考附图来详细描述这些示例性实施例。附图不按比例绘制。这些实施例是非限制性示例性实施例,其中相同的附图标记在附图的若干视图中表示类似的结构,附图表示含义如下:图1是根据本申请的一些实施例的示例性语音识别系统的示意图;图2是根据本申请的一些实施例的计算设备的示例性组件的示意图;图3是根据本申请的一些实施例的示例性用户终端的示例性硬件或软件组件的示意图;图4是根据本申请的一些实施例的示例性处理引擎的示意图;图5是根据本申请的一些实施例的用于生成唤醒设备的指令的示例性过程的流程图;图6是根据本申请的一些实施例的示例性处理模块的示意图;图7是根据本申请的一些实施例的基于语音信号,用于生成唤醒设备的指令的示例性过程的流程图;图8是根据本申请的一些实施例的用于对语音特征的一个或以上标签的一个或以上分数执行平滑操作的示例性过程的流程图;图9是根据本申请的一些实施例的用于在预设间隔中对至少两个帧进行采集的示例性过程的流程图;图10是根据本申请的一些实施例的用于生成唤醒设备的指令的示例性过程的流程图。具体实施方式为了说明与本申请的实施例相关的技术方案,下面提供在实施例的描述中提到的附图的简要介绍。下面描述的附图仅是本申请的一些示例或实施例,在没有进一步创造性努力的情况下,本领域普通技术人员可以根据这些附图将本申请应用于其他类似场景。其中,除非另有说明或从上下文中显而易见,否则附图中相同的附图标记表示相同的结构和操作。如本申请和所附权利要求中所使用的,单数形式“一”,“一个”和“该”包括复数,除非内容另有明确说明。将进一步理解,当在本申请中使用术语“包括”,“包含”,“包括”或“包括”时,指存在所述步骤和元件,但不排除存在或添加一个或以上其他步骤和元素。根据本申请的一些实施例,可以以多种方式引用系统的一些模块,可以在客户端终端或服务器中使用和操作任何数量的不同模块,并且可以在本系统和方法的不同方面使用不同的模块。这些模块旨在说明本申请,而不是本文档来自技高网...

【技术保护点】
1.一种用于提供语音识别的系统,其特征在于包括:/n存储一组指令的至少一个存储介质;以及/n至少一个处理器,被配置为与所述至少一个存储介质通信,其中,当执行所述指令时,所述至少一个处理器用于:/n接收包括至少两个语音数据帧的语音信号;/n确定至少两个帧中的每个帧的语音特征,该语音特征与一个或以上标签相关;/n基于语音特征确定关于一个或以上标签的一个或以上得分;/n在预设间隔中采集至少两个帧,采集的帧按照一个或以上标签的序列对应于一个或以上标签中的至少一部分;/n获得与每个采集帧相关联的标签的分数;以及/n基于所获得的与采集的帧相关联的标签的分数,生成唤醒设备的指令。/n

【技术特征摘要】
【国外来华专利技术】1.一种用于提供语音识别的系统,其特征在于包括:
存储一组指令的至少一个存储介质;以及
至少一个处理器,被配置为与所述至少一个存储介质通信,其中,当执行所述指令时,所述至少一个处理器用于:
接收包括至少两个语音数据帧的语音信号;
确定至少两个帧中的每个帧的语音特征,该语音特征与一个或以上标签相关;
基于语音特征确定关于一个或以上标签的一个或以上得分;
在预设间隔中采集至少两个帧,采集的帧按照一个或以上标签的序列对应于一个或以上标签中的至少一部分;
获得与每个采集帧相关联的标签的分数;以及
基于所获得的与采集的帧相关联的标签的分数,生成唤醒设备的指令。


2.如权利要求1所述的系统,其特征在于,所述至少一个处理器还用于:
对于至少两个帧中的每个帧,对一个或以上标签的一个或以上分数执行平滑操作。


3.如权利要求2所述的系统,其特征在于,对于所述至少两个帧中的每个帧,对一个或以上标签的一个或以上分数执行平滑操作,所述至少一个处理器用于:
确定相对于当前帧的平滑窗口;
确定平滑窗口中与当前帧相关联的至少一个帧;
确定所述至少一个帧的一个或以上标签的分数;
基于所述至少一个帧的一个或以上标签的分数,确定当前帧的一个或以上标签中的每个标签的平均分数;以及
将当前帧的一个或以上标签中的每一个标签的平均分数指定为当前帧的一个或以上标签中的每一个标签的分数。


4.如权利要求1所述的系统,其特征在于,所述一个或以上标签涉及用于唤醒所述设备的唤醒短语,并且所述唤醒短语包括至少一个单词。


5.如权利要求1所述的系统,其特征在于,基于所述一个或以上语音特征确定关于所述一个或以上标签的一个或以上得分,所述至少一个处理器用于:
确定神经网络模型;
将与所述至少两个帧对应的一个或以上语音特征输入到神经网络模型中;以及
针对一个或以上语音特征中的每一个语音特征生成关于一个或以上标签的一个或以上分数。


6.如权利要求1所述的系统,其特征在于,为了在预设间隔中对所述至少两个帧进行采集,所述至少一个处理器用于:
确定搜索窗口的预定宽度,搜索窗口的预定宽度与唤醒短语中的单词数量有关;以及
确定搜索窗口中的帧数,所述帧数按照所述序列对应于第一数量的标签。


7.如权利要求6所述的系统,其特征在于,为了基于所获得的与所述采集帧相关联的标签的分数来生成唤醒设备的指令,所述至少一个处理器用于:
基于与采集帧对应的一个或以上标签的分数确定最终分数;
确定所述最终得分是否大于阈值;以及
响应于所述最终得分大于所述阈值,
生成唤醒所述设备的指令。


8.如权利要求7所述的系统,其特征在于,所述最终得分是与所述采集的帧相关联的标签的得分的乘积的开方。


9.如权利要求7所述的系统,其特征在于,所述至少一个处理器还用于:
响应于所述最终得分不大于所述阈值,
将搜索窗口向前移动一步。


10.如权利要求1所述的系统,其特征在于为了确定所述至少两个帧中的每个帧的一个或以上语音特征,所述至少一个处理器用于:
将所述语音信号从时域变换到频域;以及
对变换后的语音信号进行离散化以获得与所述至少两个帧相对应的一个或以上语音特征。


11.一种用于在具有一个或以上处理器和一个或以上存储设备的计算设备上实现的语音识别的方法,其特征在于,所述方法包括:
接收包括至少两个语音数据帧...

【专利技术属性】
技术研发人员:周荣
申请(专利权)人:北京嘀嘀无限科技发展有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1