有向性关键字验证方法以及使用该方法的电子装置制造方法及图纸

技术编号:16328921 阅读:40 留言:0更新日期:2017-09-29 20:06
本发明专利技术提供一种有向性关键字验证方法以及使用该方法的电子装置。该有向性关键字验证方法包括:接收预定义的角度范围内的第一音频流并且消除不在所述预定义的角度范围内的任何方向上的噪声;分析所述第一音频流以获得第一字;确定所述第一字是否匹配关键字数据库中的第一关键字;如果不匹配,将所述第一字分配为属于第一类别;如果匹配,则确定所述第一字的元音模式是否与所述第一关键字的元音模式相匹配;如果元音模式相匹配,将所述第一字分配为属于第二类别;以及如果所述元音模式不匹配,将所述第一字分配为属于第一类别。

【技术实现步骤摘要】
有向性关键字验证方法以及使用该方法的电子装置相关申请的交叉引用本申请要求2016年3月22日提交的专利申请号为15/076,682的美国专利的优先权,其公开的所有内容通过引用结合到本申请。
本专利技术涉及一种应用于电子装置的有向性关键字验证方法以及使用该方法的电子装置。
技术介绍
目前,关键字准确检测技术仍有很大的改进空间。从音频信号中一个或一系列关键字的检测可用于各种目的,包括存储、传输、语音识别,语者识别等。例如,关键字检测机制在由人声远程控制的电子装置的应用中是很有用的。在获得音频信号后,不仅需要信号处理算法来识别正在说的准确的字而且还需辨别语法或句子结构。目前,仍然需要更好的算法来提高信号质量,以提高关键字检测的质量和准确性。提高信号质量的更好的算法的实现任需要加强关键字检测的质量和准确性。当前,可以通过自动语音识别(ASR)引擎来执行准确的字的辨别。当前的关键字检测方法有很多待解决的难题。例如,现有的ASR引擎的结果仍然不是很准确,因此需要后续的识别算法。此外,从麦克风判断期望的方向上使用者的存在并且除去不期望的方向上的其他干扰也是非常重要的。这也意味着,记录装置连续不断地侦听期望的方向并且不被其他方向上的噪声触发进入工作。在实时应用中,减少计算时间是非常重要的,对于恒定的计算时间,需要良好的缓冲策略。此外,需要消除例如背景音乐的非人类语音的存在。在捕获人类语音后,电子装置所安装的扬声器的回放声音效果可能会将不期望的回音引入关键字验证系统。因此,也需要消除这些不期望的回音。另外,需要验证程序来辨别使用者是否在与另一个使用者进行对话或者使用者实际上是在发出语音命令。由于上述问题有待解决,可能需要一种新的关键字验证方法和关键字验证系统。
技术实现思路
因此,本专利技术提供一种应用于电子装置的有向性关键字验证方法以及使用该方法的电子装置。根据本专利技术的一个方面,本专利技术提供一种应用于电子装置的有向性关键字验证方法,包括:接收预定义的角度范围内的第一音频流并且消除不在所述预定义的角度范围内的任何方向上的噪声;分析所述第一音频流以获得第一字;确定所述第一字是否匹配关键字数据库中的第一关键字;响应于所述第一字被确定为不匹配所述关键字数据库的所述第一关键字,将所述第一字分配为属于第一类别;响应于确定所述第一字与所述关键字数据库的所述第一关键字相匹配,确定所述第一字的元音模式是否与所述第一关键字的元音模式相匹配;响应于所述第一字的所述元音模式被确定为与所述第一关键字的所述元音模式相匹配,将所述第一字分配为属于第二类别;以及响应于所述第一字的所述元音模式被确定为不匹配所述第一关键字的所述元音模式,将所述第一字分配为属于第一类别。根据本专利技术的另一个方面,本专利技术提供一种电子装置,包括:至少两个麦克风;以及处理器,与所述至少两个麦克风直接耦接并且至少被配置为:接收预定义的角度范围内的第一音频流并且消除不在所述预定义的角度范围内的任何方向上的噪声;分析所述第一音频流以获得第一字;确定所述第一字是否匹配关键字数据库中的第一关键字;响应于所述第一字被确定为不匹配所述关键字数据库的所述第一关键字,将所述第一字分配为属于第一类别;响应于确定所述第一字与所述关键字数据库的所述第一关键字相匹配,确定所述第一字的元音模式是否与所述第一关键字的元音模式相匹配;响应于所述第一字的所述元音模式被确定为与所述第一关键字的所述元音模式相匹配,将所述第一字分配为属于第二类别;以及响应于所述第一字的所述元音模式被确定为不匹配所述第一关键字的所述元音模式,将所述第一字分配为属于第一类别。为使本专利技术的上述特征和优点能更明显易懂,下文特举实施例,并配合附图在下文中作出详细说明,应当理解的是上述一般描述和以下详细的描述仅为示例,旨在对所要求保护的本专利技术提供进一步的解释。应当理解的是,
技术实现思路
中可能不包含本专利技术的所有方面和实施例,因此并不意味着以任何方式进行限制或限制。本专利技术的公开包括对本领域技术人员显而易见的各种改进和修改。附图说明为了更好地理解本专利技术,说明书包括附图并且附图构成说明书的一部分。附图例举说明了本专利技术的实施例,结合说明书的描述用来解释本专利技术的原理。图1是根据本专利技术一实施例的有向性关键字验证方法的流程图;图2是示出根据本专利技术一实施例的关键字验证系统的功能框图;图3示出根据本专利技术一实施例的回音消除技术的示意图;图4是示出使用自动增益控制(AGC)以提高音频的空间到达方向上的阈值准确性的示意图;图5是示出根据本专利技术一实施例的限定一具有接受角和捕获距离的圆锥体的概念图;图6是示出根据本专利技术一实施例的基于期望的或不期望的源的滤波的概念图;图7示出使用波束成形滤除不期望的使用者方向的结果的示意图;图8是示出根据本专利技术一实施例的关键字验证程序的示意图;图9示出根据本专利技术一实施例的使用谱峰能量进行VOP检测的算法的示意图;图10是示出使用话语的谱峰能量进行VOP检测的各种结果的示意图;图11示出根据本专利技术一实施例的关键字检测方法的示意图。具体实施方式将详细参考本专利技术例举的实施例,该些例举的实施例在附图中示出。附图和说明书中尽可能使用相同的标号来指代相同/相似的部分或部件。音频信号中的关键字检测广为人知地应用于使用音频命令的控制程序。大多数应用使用语音识别并设计基于特定有限字词的搜索域。本专利技术是关于由两个或更多个麦克风捕获的音频信号中的关键字检测。本专利技术所提出的方法是有方向选择性的。捕获的音频信号可用在语音识别、语者识别、语音激活控制等领域。使用自动语音识别(ASR)引擎来识别由多个麦克风捕获的音频信号。然而,ASR引擎的识别结果可能不完全准确,因此提出了基于元音类型和元音时间戳的后续验证。此外,必须具有一个机制,其能够区分对机器发出的语音命令和人与人之间普通对话。因此,ASR引擎所识别的字还需要后续通过辨别特定的语言模式(例如特定句法或人工语法)进行额外的验证。由多个麦克风捕获的音频信号将通过算法进行数字化处理以提高信号质量,因为需要该算法来提高关键字检测的质量和准确性。并且,从麦克风判断期望的方向上使用者的存在以便除去不期望的方向上的其他干扰也可能是非常重要的。这意味着记录装置会连续不断地记录期望的方向上的音频信号而不会由指定方向之外的(其他方向上的)音频信号触发任何活动。此外,在实时应用中,减少计算时间是也可能非常重要,并且对于恒定的计算时间而言,需要好的缓冲策略。考虑到这些重要的条件,本专利技术提出一种基于在指定方向上检测到的关键字或短语来检测期望的方向上一个或多个使用者的存在的方法和装置。本专利技术提出的方法和装置会先检测这些关键字并且随后通过使用语音中的元音发生位置来进行验证。此外,本专利技术旨在使用波束成形来解决消除背景噪声相关的问题,并且还使用了语音活动检测(VAD)技术。还可以使用一般的自动语音识别(ASR)引擎来连续地搜索具有预定义的语法的音频模式。该语法可以是自定义的以提高未录入词库的字的拒绝率。ASR引擎获得的字的共振峰分析可包括基于共振峰的元音发生点检测和元音识别。可通过使用回音消除机制来除去装置上扬声器的回放声音效果。然后,经处理的信号被传送到自动增益控制(AGC)模块以使增益固定在预定义的水平。AGC的使用将通过稳定增益来改善其余技术块中的本文档来自技高网
...
有向性关键字验证方法以及使用该方法的电子装置

【技术保护点】
一种应用于电子装置的有向性关键字验证方法,其特征在于,所述方法包括:接收预定义的角度范围内的第一音频流并且消除不在所述预定义的角度范围内的任何方向上的噪声;分析所述第一音频流以获得第一字;确定所述第一字是否匹配关键字数据库中的第一关键字;响应于所述第一字被确定为不匹配所述关键字数据库的所述第一关键字,将所述第一字分配为属于第一类别;响应于确定所述第一字与所述关键字数据库的所述第一关键字相匹配,确定所述第一字的元音模式是否与所述第一关键字的元音模式相匹配;响应于所述第一字的所述元音模式被确定为与所述第一关键字的所述元音模式相匹配,将所述第一字分配为属于第二类别;以及响应于所述第一字的所述元音模式被确定为不匹配所述第一关键字的所述元音模式,将所述第一字分配为属于第一类别。

【技术特征摘要】
2016.03.22 US 15/076,6821.一种应用于电子装置的有向性关键字验证方法,其特征在于,所述方法包括:接收预定义的角度范围内的第一音频流并且消除不在所述预定义的角度范围内的任何方向上的噪声;分析所述第一音频流以获得第一字;确定所述第一字是否匹配关键字数据库中的第一关键字;响应于所述第一字被确定为不匹配所述关键字数据库的所述第一关键字,将所述第一字分配为属于第一类别;响应于确定所述第一字与所述关键字数据库的所述第一关键字相匹配,确定所述第一字的元音模式是否与所述第一关键字的元音模式相匹配;响应于所述第一字的所述元音模式被确定为与所述第一关键字的所述元音模式相匹配,将所述第一字分配为属于第二类别;以及响应于所述第一字的所述元音模式被确定为不匹配所述第一关键字的所述元音模式,将所述第一字分配为属于第一类别。2.根据权利要求1所述的方法,其特征在于,确定所述第一字的所述元音模式是否与所述第一关键字的所述元音模式相匹配包括:响应于以下操作,确定所述第一字的所述元音模式与所述第一关键字的所述元音模式相匹配:所述第一字的所述元音序列与所述第一关键字的所述元音序列完全匹配;以及所述第一字的元音序列的元音的时间戳落在基于所述第一关键字的所述元音序列的相应元音所确定的预期范围内。3.根据权利要求1所述的方法,其特征在于,所述第一类别是填充字,而所述第二类别是触发字或命令字。4.根据权利要求1所述的方法,其特征在于,将所述第一字分配为属于所述第一类别还包括:确定所述第一字是否为触发字;以及只有当所述第一字被确定为所述触发字时,确定所述第二字是否与所述关键字数据库中作为命令字的第二关键字相匹配。5.根据权利要求1所述的方法,其特征在于,还包括:接收第二音频流;执行语音活动检测程序以确定所述第二音频流是否为人类语音;以及如果所述第二音频流不是人类语音,则丢弃所述第二音频流。6.根据权利要求1所述的方法,其特征在于,接收所述第一音频流包括:使用至少两个麦克风来捕获第一音频流;对所述第一音频流应用回音消除程序;以及对所述第一音频流应用自动增益控制以产生在一预定功率位准范围内的增益调整的第一音频流。7.根据权利要求1所述的方法,其特征在于,还包括:计算所述增益调整的第一音频流的线性预测编码残余;基于到达时差,从所述线性预测编码残余确定所述第一音频流相对于至少两个麦克风的方向;以及掩蔽所述预定义的角度之外的任何方向上的任何声音。8.根据权利要求7所述的方法,其特征在于,掩蔽所述预定义的角度之外的任何方向上的任何声音包括:滤除所述预定义的角度之外的任何方向上的任何声音;以及滤除超出最大距离的任何声音。9.根据权利要求2所述的方法,其特征在于,确定所述第一字是否匹配所述关键字数据库中的所述第一关键字包括:将所述第一音频流划分成音位;执行所述音位的共振峰分析以检测共振峰和所述元音的所述时间戳;以及基于所述共振峰和所述元音的时间戳验证所述第一字。10.根据权利要求1所述的方法,其特征在于,分析所述第一音频流以获得所述第一字包括:分析所述第一音频以从第一角度检测所述第一字;以及分析所述第一音频以从第二角度检测不同的字。11.一种电子装置,其特征在于,包括:至少两个麦克风;以及处理器,与所述至少两个麦克风直接耦接并且至...

【专利技术属性】
技术研发人员:布梅克·D·潘迪亚蔡幸育王闵鸿许正忠
申请(专利权)人:华硕电脑股份有限公司
类型:发明
国别省市:中国台湾,71

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1