当前位置: 首页 > 专利查询>英特尔公司专利>正文

在语音识别中采用预取指令的方法、系统和装置制造方法及图纸

技术编号:3046598 阅读:165 留言:0更新日期:2012-04-11 18:40
一般来说,由用于人的语音识别的计算机系统所使用的根据本发明专利技术一个实施例的新的预取方法提供根据声音的隐藏马尔可夫模型状态的高斯分布计算和搜索语音特征的有效方法。当该处理器正在用于对一个语音数据进行声音处理时,该新的方法传送要被处理的语音数据。相应地,由用于人的语音识别的一个计算机系统所采用的根据本发明专利技术一个实施例的预取方法减小或消除当该存储器把要被处理的语音数据传送到处理器时该处理器等待空闲所造成的存储器等待时间。(*该技术在2021年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术涉及语音识别。特别地,本专利技术涉及一种新的装置和方法,其在系统在语音识别处理的声音识别阶段过程的处理中对语音数据进行声音处理时,采用预取指令来把要被声音处理的语音数据从主存储器传送到高速缓存。
技术介绍
在过去几年,由一个机器所进行的人的语音识别的技术和科学已经获得大的发展。今天,存在有许多用于自动语音识别(ASR)的大词汇连续语音识别(LVCSR)的应用程序。为了实现语音识别,一种计算机系统可以被采用作为处理大量计算和搜索的语音引擎,以分析和识别携带人的语音特征的声音信号。相应地一个计算机系统在执行这些操作中的效率对语音引擎的性能具有影响。通常,一个语音识别系统对一个人的语音信号执行几个操作,以确定所说的内容。例如,当一个人说出如下句子“my name is John”时,例如一个麦克风这样的语音捕获设备捕获该发音作为一个模拟声音信号。该模拟信号然后被转换为一个数字信号,以便于由数字计算机所处理。携带语音特征的所获得信号可以被使用一个数学模型来量化并且表现为多个特征矢量。例如,Mel频率对数倒频谱(Cepstral)系数(MFCC)可以被用于表示语音特征。所计算的特征然后被一个计算机系统进行声音处理。在声音处理过程中,该特征与包含在一个声音模型中的已知音标单元相比较。一个声音模型的例子是隐藏马尔可夫模型(HMM)。该语音特征与包含在该模型中的已知音标单元的比较可能导致一个或多个匹配。所匹配的音标单元然后例如使用一个字典或语法词典来进行语言处理,以形成一个所识别的字串。为了执行声音处理,该语音引擎使用大量概率分布,例如作为该语音信号的特征矢量的空间的N维空间的M高斯分布函数的混合。每个特征矢量的平均值和方差被计算并且存储器该计算机系统的存储器中。后来,每个参数被从存储器中取出,以用于该语音引擎来完成高斯函数的计算。图1为在人的语音识别中所涉及的现有计算机系统的存储和执行周期的示意图。该图示出在语音信号的声音处理过程中该执行单元和存储器总线的时基比较。当存储器总线把要被处理的语音数据从存储器传送时,该执行单元保持空闲,直到要被处理的数据变为可以由该处理器所获得为止。由于在声音分析中所需的全部计算量,该存储器等待时间快速增加,即当该存储器传送要被处理的数据时所浪费的时间增加。当LVCSR连续接收语音信号时,该问题特别严重。许多操作需要在每秒钟内完成,并且该缺点严重地限制该系统的速度和效率。附图说明图1为用于根据现有技术的声音处理中的计算机系统的存储和执行周期的示意图。图2为根据本专利技术一个实施例的方法的示意语音识别系统的方框图。图3为根据本专利技术一个实施例的示意语音识别系统的流程图。图4为在语音信号的声音处理过程中的语音特征计算的示意方法。图5为采用根据本专利技术的方法的新的预取技术的C语言的示意计算机代码。图6为采用根据本专利技术一个实施例的方法的新的预取技术的汇编语言的示意计算机代码。图7为用于根据本专利技术一个实施例的示意计算机系统的存储和执行周期的示意图。具体实施例方式在本专利技术的实施例的如下详细描述中,给出各种具体细节。但是,本领域的普通技术人员显然可以看出能够实现根据本专利技术的实施例的方法而没有这些具体细节。换句话说,众所周知的方法、过程、部件和电路没有被详细描述,以避免对本专利技术的实施例造成混淆。根据本专利技术的方法包括将在下文中描述的各种功能步骤。该功能步骤可以由硬件部件来实现,或者可以体现为机器可执行的指令,其可以被用于使得用该指令编程的通用处理器执行该功能步骤。另外,该功能步骤可以通过硬件和软件的组合来执行。本专利技术的实施例揭示要在人的语音识别的声音处理阶段过程中实现的一种新的预取技术。当在声音处理过程中要被处理的数据被从主存储器传送到执行单元时,该新的预取技术可以被用于减小或消除由于执行单元等待空闲所导致的存储器等待时间。在一个优选实施例中,例如,当该执行单元忙于计算语音特征时,该应用程序并行地执行用于要被处理的数据的预取指令。相应地,当该执行单元忙于计算时,该存储器总线忙于预取该执行单元进行下一次计算所需的数据。现在参见图2,其中示出一个示意的语音识别系统200的方框图。该系统包括语音捕获设备210、模数转换器212、计算机系统250和一系列I/O设备,例如控制器设备240、显示设备242、网络接口卡244和打印设备246。该计算机系统250又包括处理器252、存储器280、高速缓存260、高速缓存控制器262、存储器总线272以及I/O总线270。优选地,该计算机系统可以进一步包括一个直接存储器存取274。该系统如下工作一个人对麦克风210说话,获得一个模拟语音信号。该信号然后通过模数转换器212,以形成该模拟语音信号的数字化表示。该数字化的表示然后被输入到该计算机系统250。该处理器252然后开始识别与该语音信号相关的语音特征,并且把这些特征存储在计算机系统250的存储器280中。一个高速缓存260被用于存储在语音特征的计算中所需的预取数据。连接到处理器252和高速缓存260的一个高速缓存控制器262协调处理器252和高速缓存260之间的数据传送。还被存储在存储器280中的是多个已知的音标单元,其被称为一个声音模型。由本实施例所使用的声音模型可以是一个与说话者相关的(SD)模型或者可以是与说话者无关的(SI)模型。该SD模型由一个特定人的声音所效率,并且该识别系统被期望由相同的人所使用。例如,一个移动电话或个人数字助理通常采用SD模型,因为它预计被相同的人(该设备的拥有者)所使用。另一方面当使用该系统的人改变时,使用SI模型。例如,一个自动出纳机(ATM)一般使用SI模型。在处理器252已经完成该语音信号的特征的计算并且把它们存储在该存储器280中之后,它可以在也存储在存储器280中的声音模型内寻求匹配。所用的特定搜索方法不影响用于该实施例的方法。例如,可以使用单个最佳或N个最佳假设。另外,一个字图或一个音标字图可以被用于表示在声音模型的搜索过程中得到的匹配。无论如何,该匹配被进行语言处理,以确定被识别的字串。另外,该处理器252可以利用该显示设备242来把匹配的结果发送到另一个计算机,例如可以执行该语言处理的服务器设备(未示出)。如果该处理器252被编程为也对匹配的结果执行语言处理,则它可以利用打印设备246来打印相关的所识别字串。另外,所识别的字串可以显示在显示设备242上,或者例如被发送到控制器设备240,以把控制信号发送到另一个系统,来控制一个设备。现在参见图3,其中示出根据一个实施例的使用语音识别系统的流程图。在步骤3e06中,以模拟形式捕获一个示意的人的语音信号。所捕获的语音信号携带与该说话者所说的内容相关的语音特征。所选择的特定语音特征不影响根据本实施例的方法。例如,所选择的语音特征可以是按照频率间隔测量的语音信号的能量强度。当人说话时,该特征改变,并且该特征可以由多个特征矢量所表示,每个特征矢量具有一个方向和幅度。然后该语音信号可以被数学地表示为以不同时间间隔测量的特征矢量的总和。该时间间隔或采样频率越短,则该语音信号的表示越精确。为了计算这些特征,该信号首先被转换为数字形式,使其由步骤308中所示的一个数字计算机所处理。在步骤310中,该数字化的语音信号的特征被本文档来自技高网...

【技术保护点】
一种方法包括:    接收人的语音信号;    对与所述人的语音信号相关的第一组语音数据进行声音处理;    当所述第一组语音数据被声音处理时,把要被声音处理的第二组语音数据从第一存储器传送到第二存储器;    对所述经过声音处理的第一和第二组语音数据进行语言处理;以及    形成与所述人的语音信号相关的一个所识别字串。

【技术特征摘要】
1.一种方法包括接收人的语音信号;对与所述人的语音信号相关的第一组语音数据进行声音处理;当所述第一组语音数据被声音处理时,把要被声音处理的第二组语音数据从第一存储器传送到第二存储器;对所述经过声音处理的第一和第二组语音数据进行语言处理;以及形成与所述人的语音信号相关的一个所识别字串。2.根据权利要求1所述的方法,其中所述第一存储器包括一个主存储器。3.根据权利要求1所述的方法,其中所述第二存储器包括一个高速缓存。4.根据权利要求1所述的方法,其中所述第一和第二组语音数据包括基于声音的隐藏马尔可夫模型状态的高斯分布的一个平均矢量和方差矢量。5.根据权利要求4所述的方法,其中所述平均矢量和所述方差矢量被用于计算一个特征矢量,其接着被用于搜索一个声音模型。6.根据权利要求1所述的方法,其中所述识别的字串被用于控制一个设备。7.一种方法,其中包括对第一组语音数据进行声音处理;以及当所述第一组语音数据被进行声音处理时,把要被声音处理的第二组语音数据从第一存储器传送到第二存储器。8.根据权利要求7所述的方法,其中所述第一和第二组语音数据包括基于声音的隐藏马尔可夫模型状态的高斯分布的平均矢量和方差矢量。9.根据权利要求7所述的方法,其中所述第一存储器比所述第二存储器更慢。10.根据权利要求7所述的方法,其中进一步包括对所述经过声音处理的第一和第二组语音数据进行语言处理;以及识别对应于所述语音数据的至少一个字。11.一种系统,其中包括客户机设备,其包括对第一和第二组语音数据进行声音处理的处理器,连接到所述处理器的主存储器,该主存储器存储所述第一和第二组语音数据,连接到所述处理器和所述主存储器的高速缓存,以及与所述第二组语音数据从所述主存储器传送到所述高速缓存的同时,所述处理器对所述第一组语音数据进行声音处理,以及连接到该客户机设备的所述处理器的发送器模块,该发送器模块把所述经过声音处理的第一和第二组语音数据发送到一个服务器。12.根据权利要求11所述的系统,其中进一步包括人的语音捕获模块,用于捕获人的语音信号;模数转换器模块,用于把所述人的语音信号转换为数字语音信号;以及语音特征识别器模块,用于识别所述数字语音信号的特征。13.根据权利要求11所述的系统,其中所述客户机设备选自移动电话、个人数字...

【专利技术属性】
技术研发人员:赖春荣赵庆伟潘杰林
申请(专利权)人:英特尔公司英特尔中国有限公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1