多视增强建模及关键词检测的应用制造技术

技术编号：35892058 阅读：23 留言：0更新日期：2022-12-10 10:23

提供了一种用于基于关键词检测(KWS)来激活语音识别的方法、计算机系统和计算机可读介质。接收对应于一个或多个说话者的波形数据。从接收的波形数据中提取一个或多个方向特征。基于提取的一个或多个特征从所述接收的波形数据中确定一个或多个关键词。基于检测到所确定的关键词来激活语音识别。定的关键词来激活语音识别。定的关键词来激活语音识别。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】多视增强建模及关键词检测的应用
相关申请的交叉引用
[0001]本申请要求于2020年7月6日递交的申请号为16/921,161的美国申请的优先权，该申请的公开内容通过引用整体并入。

[0002]本公开总体上涉及数据处理领域，更具体地，涉及语音识别。

技术介绍

[0003]随着智能家居、移动设备和汽车设备的激增，基于语音的人机交互变得更加普遍。为了实现解放双手的语音识别体验，系统不断地侦听特定唤醒词(这一过程通常被称为关键词检测(KWS，Keyword Spotting))以启动语音识别。出于隐私考虑，KWS的唤醒通常完全发生在具有低占用空间和低功耗要求的设备上。KWS系统通常在清晰的语音条件下表现良好。

技术实现思路

[0004]实施例涉及一种用于基于关键词检测(KWS)来激活语音识别的方法、系统和计算机可读介质。根据一方面，提供了一种用于激活语音识别的方法。方法包括接收对应于一个或多个说话者的波形数据。从接收的波形数据中提取一个或多个方向特征。基于提取的一个或多个特征从所述接收的波形数据中确定一个或多个关键词。基于检测到所确定的关键词来激活语音识别。
[0005]根据另一方面，提供了一种用于激活语音识别的计算机系统。计算机系统包括一个或多个处理器、一个或多个计算机可读存储器、一个或多个计算机可读有形存储设备、以及存储在所述一个或多个存储设备中的至少一个存储设备上的用于通过所述一个或多个存储器中的至少一个存储器由所述一个或多个处理器中的至少一个处理器执行的程序指令，由此所述计...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种激活语音识别的方法，由处理器执行，包括：接收对应于一个或多个说话者的波形数据；从接收的波形数据中提取一个或多个方向特征；基于一个或多个提取的特征从所述接收的波形数据中确定一个或多个关键词；以及基于检测到所确定的关键词，激活语音识别。2.根据权利要求1所述的方法，其中，所述接收的波形数据包括一个或多个多通道输入波形和一个或多个预设视向。3.根据权利要求2所述的方法，还包括：通过一维卷积层将所述多通道输入波形映射到一个或多个频谱图。4.根据权利要求3所述的方法，还包括：基于所述频谱图提取单通道频谱特征、对数功率谱数据以及一个或多个多通道空间特征。5.根据权利要求2所述的方法，其中，每个提取的方向特征对应于所述一个或多个预设视向中的一个预设视向。6.根据权利要求5所述的方法，其中，基于所述方向特征对水平面中的方向集进行采样。7.根据权利要求6所述的方法，其中，一个或多个方向特征向量是从所述水平面中的所述方向集中导出的。8.根据权利要求7所述的方法，其中，基于在给定频率的给定方向上的视向导向向量的相位、麦克风对之间的距离、声速值和方向向量，所述方向特征计算一个或多个麦克风对之间的视向导向向量之间的平均余弦距离。9.根据权利要求8所述的方法，其中，所述视向导向向量、所述麦克风对之间的距离、所述声速值和所述方向向量被串联并传递到一个或多个增强块，所述增强块包括具有指数增长的膨胀因子的堆叠的膨胀卷积层。10.根据权利要求9所述的方法，其中，所述增强块生成与每个视向相关联的增强的说话者复数频谱图。11.一种用于激活语音识别的计算机系统，包括：一个或多个计算机可读非瞬态存储介质，被配置为存储计算机程序代码；以及一个或多个计算机处理器，被配置为访问所述计算机程序代码并按照所述计算机程序代码的指示进行操作，所述计算机程序代码包括：接收代码，被配置为使所述一个或多个计算机处理器接收对应于一个或多个说话者的波形数据；提取代码，被配置为使所述一个或多个计算机处理器从接收的波形数据中提取一个或多个方向特征；确定代码，被配置为使所...

【专利技术属性】
技术研发人员：于蒙，俞栋，
申请(专利权)人：腾讯美国有限责任公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人