In the system of environmental sensitive automatic speech recognition, a method comprises the following steps: including audio data of human speech; determining at least one characteristic of the audio data obtained in the environment; and according to the characteristics to be modified to perform at least one of the parameters of speech recognition.
【技术实现步骤摘要】
【国外来华专利技术】环境敏感自动语音识别的方法和系统
技术介绍
随着越来越多基于计算机的装置使用语音识别来接收来自用户的命令、以便执行某个动作以及将语音转换为文本以供听写应用或者甚至保持与用户的会话(其中沿一个或两个方向来交换信息),语音识别系统或自动语音识别器已经变得越来越重要。这种系统可以是扬声器相关的(其中通过使用户重复字词来训练系统)或者是扬声器无关的(其中任何人可提供即时直接识别字词)。例如,一些系统还可配置成理解单个字词命令的固定集合,例如以用于操作移动电话(其理解术语“呼叫”或“应答”)或者锻炼腕带(其理解字词“开始”以激活定时器)。因此,自动语音识别(ASR)对穿戴装置、智能电话和其他小装置是所期望的。但是,由于ASR的计算复杂度,小装置的许多ASR系统是基于服务器的,使得远离装置来执行计算,这能够导致显著延迟。具有板载计算能力的其他ASR系统也过于缓慢,提供相对较低质量的字词识别,和/或消耗小装置的太多功率来执行计算。因此,预期以较低功率消耗来提供快速字词识别的良好质量的ASR系统。附图说明通过附图、作为举例的方式而不是限制的方式来图示本文所述的资料。为了图示的简洁和清晰 ...
【技术保护点】
一种语音识别的计算机实现方法,包含:得到包括人类语音的音频数据;确定在其中得到所述音频数据的环境的至少一个特性;以及根据所述特性来修改要用来执行言语识别的至少一个参数。
【技术特征摘要】
【国外来华专利技术】2015.03.26 US 14/6703551.一种语音识别的计算机实现方法,包含:得到包括人类语音的音频数据;确定在其中得到所述音频数据的环境的至少一个特性;以及根据所述特性来修改要用来执行言语识别的至少一个参数。2.如权利要求1所述的方法,其中,所述特性与所述音频数据的内容关联。3.如权利要求1所述的方法,其中,所述特性包括下列至少一个:所述音频数据的背景中的噪声量,所述音频数据中的声学效果的量度,以及所述音频数据中的至少一个可识别声音。4.如权利要求1所述的方法,其中,所述特性是所述音频数据的信噪比(SNR)。5.如权利要求4所述的方法,其中,所述参数是用来生成所述音频数据的语音的可能部分的语言模型的波束宽度,并且该波束宽度根据所述音频数据的所述信噪比来调整。6.如权利要求5所述的方法,其中,所述波束宽度除了根据所述音频数据的所述SNR之外还根据期望字词差错率(WER)值和期望实时因数(RTF)值来选择,其中所述期望字词差错率(WER)值是相对于所说的字词数量的差错数量,所述期望实时因数(RTF)值是相对于话语的时长的处理所述话语所需的时间。7.如权利要求5所述的方法,其中,所述波束宽度对较高SNR比对较低SNR的所述波束更低。8.如权利要求4所述的方法,其中,所述参数是声学比例因子,该声学比例因子被应用于要用于语言模型上的声学得分以生成所述音频数据的语音的可能部分,并且该声学比例因子根据所述音频数据的所述信噪比来调整。9.如权利要求8所述的方法,其中,所述声学比例因子除了根据所述SNR之外还根据预期WER来选择。10.如权利要求8所述的方法,其中,有效令牌缓冲器大小根据所述SNR来改变。11.如权利要求1所述的方法,其中,所述特性是下列至少一个的声音:风噪声,沉重呼吸,车辆噪声,来自人群的声音,以及指示音频装置是在大体上或基本上封闭的结构的内部还是外部的噪声。12.如权利要求1所述的方法,其中,所述特性是用户简档中的特征,该特征指示包括所述用户的性别的用户的话音的至少一个潜在声学特性。13.如权利要求1所述的方法,包含选择声学模型,该声学模型不强调不是语音并且与所述特性关联的所述音频数据中的声音。14.如权利要求1所述的方法,其中,所述特性与下列至少一个关联:形成所述音频数据的装置的地理位置;形成所述音频数据的所述装置所在的地点、建筑物或结构的类型或用途;形成所述音频数据的所述装置的运动或取向;形成所述音频数据的装置周围的空气的特性;以及形成所述音频数据的装置周围的磁场的特性。15.如权利要求1所述的方法,其中,所述特性被用来确定形成所述音频数据的装置是否为下列至少一个:由所述装置的用户所携带;在执行特定类型的活动的用户上;在锻炼的用户上;在执行特定类型的锻炼的用户上;以及在车辆上处于运动中的用户上。16.如权利要求1所述的方法,包含至少部分根据所述特性来修改词汇搜索空间中的所述字词的似然。17.如权利要求1所述的方法,其中,所述特性与下列至少一个关联:(1)所述音频数据的内容,其中所述特性包括下列至少一个:所述音频数据的背景中的噪声量,所述音频数据中的声学效果的量度,以及所述音频数据中的至少一个可识别声音;(2)其中,所述特性是所述音频数据的信噪比(SNR);其中所述参数是下列至少一个:(a)生成所述音频数据的语音的可能部分的语言模型的波束宽度,并且该波束宽度根据所述音频数据的信噪比来调整;其中所述波束宽度除了根据所述音频数据的所述SNR之外还根据期望字词差错率(WER)值和期望实时因数(RTF)值来选择,其中所述期望字词差错率(WER)值是相对于所说的字词数量的差错数量,所述期望实时因数(RTF)值是相对于话语的时长的处理所述话语所需的时间;其中所述波束宽度对较高SNR比对较低SNR的波束宽度更低;(b)声学比例因子,该声学比例因子被应用于要用于语言模型上的声学得分以生成所述音频数据的语音的可能部分,并且该声学比例因子根据所述音频数据的所述信噪比来调整;其中所述声学比例因子除了根据所述SNR之外还根据预期WER来选择,以及(c)有效令牌缓冲器大小,该有效令牌缓冲器大小根据所述SNR来改变;(3)其中所述特性是下列至少一个的声音:风噪声,沉重呼吸,车辆噪声,来自人群的声音,以及指示音频装置是在大体上或基本上封闭的结构的内部还是外部的噪声;(4)其中所述特性是用户简档中的特征,该特征指示包括所述用户的性别的用户的话音的至少一个潜在声学特性;(5)其中所述特性与下列至少一个关联:形成所述音频数据的装置的地理位置;形成所述音频数据的所述装置所在的地点、建筑物或结构的类型或用途;形成所述音频数据的所述装置的运动或取向;形成所述音频数据的装置周围的空气的特性;以及形成所述音频数据的装置周围的磁场的特性;(6)其中所述特性被用来确定形成所述音频数据的装置是否为下列至少一个:由所述装置的用户所携带;在执行特定类型的活动的用户上;在锻炼的用户上;在执行特定类型的锻炼的用户上;以及在车辆上处于运动中的用户上;以及所述方法包含选择声学模型,该声学模型不强调不是语音并且与所述特性关联的所述音频数据中的声音;以及至少部分根据所述特性来修改词汇搜索空间中的所述字词的似然。18.一种语音识别的计算机实现系统,包含:至少一个声学信号接收单元,用来得到包括人类语音的音频数据;至少一个处理器,在通信上被连接到所述声学信号接收单元;至少一个存储器,在通信上被耦合到所述至少一个处理器;环境识别单元,用来确定在其中得到所述音频...
【专利技术属性】
技术研发人员:B拉文德兰,G斯特默,J霍弗,
申请(专利权)人:英特尔公司,
类型:发明
国别省市:美国,US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。