当前位置: 首页 > 专利查询>英特尔公司专利>正文

用于语音唤醒的音频的语音分类制造技术

技术编号:22975843 阅读:50 留言:0更新日期:2019-12-31 23:50
本公开涉及用于语音唤醒的音频的语音分类。语音或非语音检测技术被讨论并且包括:使用来自声学模型的概率分数来更新语音模式模型以生成语音模式模型的每个状态的分数,使得语音模式模型包括具有多个自回路的第一非语音状态、在第一非语音状态之后的多个语音状态、以及在语音状态之后的第二非语音状态,其中每个自回路与概率分数中的非语音概率分数相关联;以及基于第一非语音状态的分数和多个语音状态中的最后语音状态的分数的比较来检测语音。

Speech classification of audio for voice wake-up

【技术实现步骤摘要】
用于语音唤醒的音频的语音分类
本公开涉及用于语音唤醒的音频的语音分类。
技术介绍
在运行中执行的鲁棒的低功率语音/非语音检测为输入音频信号的进一步处理提供了重要信息。顾名思义,语音/非语音检测将接收的音频输入分类为语音或非语音。这种技术的应用包括用于总是收听设备(alwayslisteningdevices)的语音检测、音频预处理的准确度提高、波束形成以及与文本无关的说话者识别。例如,当分析仅基于真实语音信号而去除无声(silence)和噪声片段时,与文本无关的说话者识别(SID)系统具有提高的准确度。另外,对于文本相关的SID,可以通过低功率系统中的语音唤醒来执行语音检测。当前的语音/非语音检测可以依赖于基于样本的语音活动检测,该语音活动检测依赖于音频信号特性,诸如信号的短期能量和过零率。然而,这种检测系统不准确并且具有高的假阳性率和假阴性率。其他技术包括基于频率的语音活动检测,其在某些频带中提供对能量的频域分析(例如,在应用快速傅立叶变换之后)。然而,这种技术具有低准确度的类似限制。因此,现有技术不提供高质量的低资源语音/非语音分类。随着实现语音唤醒、总是收听设备等的愿望变得更加普遍,这些问题可能变得至关重要。
技术实现思路
根据本公开的一方面,提供了一种语音检测系统,包括:存储器,用于存储所接收的音频输入;和处理器,其被耦合到所述存储器,所述处理器用于:经由基于所接收的音频输入的声学模型的声学评分,生成多个概率分数,每个概率分数用于对应的音频单元;基于所述概率分数中的至少一些概率分数来更新语音模式模型以生成所述语音模式模型的每个状态的分数,其中所述语音模式模型包括第一非语音状态、在所述第一非语音状态之后的多个语音状态以及在所述语音状态之后的第二非语音状态,所述第一非语音状态包括多个自回路,每个自回路与所述概率分数中的非语音概率分数相关联,其中所述语音状态包括在所述第一非语音状态之后的第一语音状态以及在所述第一语音状态之后并在所述第二非语音状态之前的第二语音状态;基于对所述第一非语音状态的第一分数和所述第二语音状态的第二分数的比较,判定所接收的音频输入是否包括语音;和当所接收的音频输入包括语音时,提供语音检测指示符。根据本公开的另一方面,提供了一种用于语音检测的计算机实现的方法,包括:经由基于所接收的音频输入的声学模型的声学评分,生成多个概率分数,每个概率分数用于对应的音频单元;基于所述概率分数中的至少一些概率分数来更新语音模式模型以生成所述语音模式模型的每个状态的分数,其中所述语音模式模型包括第一非语音状态、在所述第一非语音状态之后的多个语音状态以及在所述语音状态之后的第二非语音状态,所述第一非语音状态包括多个自回路,每个自回路与所述概率分数中的非语音概率分数相关联,其中所述语音状态包括在所述第一非语音状态之后的第一语音状态以及在所述第一语音状态之后并在所述第二非语音状态之前的第二语音状态;基于对所述第一非语音状态的第一分数和所述第二语音状态的第二分数的比较,判定所接收的音频输入是否包括语音;和当所接收的音频输入包括语音时,提供语音检测指示符。根据本公开的又一方面,提供了至少一种机器可读介质,包括:多个指令,所述多个指令响应于在计算设备上被执行而使所述计算设备执行上述方法。根据本公开的再一方面,提供了一种装置,包括:用于执行上述方法的装置。附图说明在附图中通过示例的方式而不是限制的方式示出本文描述的材料。为了说明的简单和清楚,附图中示出的元素不一定按比例绘制。例如,为清楚起见,一些元素的尺寸可能相对于其他元素被夸大。另外,在认为适当的情况下,在附图中已经重复参考标记以指示对应或类似的元素。在附图中:图1是用于提供语音或非语音分类的示例设置的说明图;图2是用于提供语音或非语音分类的示例系统的说明图;图3示出了与语音或非语音分类相关联的示例数据结构;图4示出了示例声学模型神经网络;图5示出了指示与示例神经网络输出层相对应的音频单元的示例数据结构;图6示出了示例语音模式模型;图7示出了另一示例语音模式模型;图8示出了用于生成用于语音或非语音检测的声学模型的示例过程;图9示出了与修剪(pruning)用于语音或非语音检测的声学模型相关联的示例数据结构;图10是示出用于语音或非语音检测的示例过程的流程图;图11是用于执行语音或非语音检测的示例系统的说明图;图12是示例系统的说明图;并且图13示出了全部根据本公开的至少一些实施方式布置的示例设备。具体实施方式现在参考附图描述一个或多个实施例或实施方式。虽然讨论了具体的配置和布置,但应该理解,这仅是出于说明性目的而进行的。相关领域的技术人员将认识到,在不脱离本说明书的精神和范围的情况下,可以采用其他配置和布置。对于相关领域的技术人员来说将显而易见的是,在除本文所述的系统和应用之外的各种其他系统和应用中也可以采用本文描述的技术和/或布置。虽然以下描述例如阐述了可以在诸如片上系统(SoC)架构之类的架构中表现出的各种实施方式,但是本文描述的技术和/或布置的实施方式不限于特定架构和/或计算系统,并且可以由用于类似目的任何架构和/或计算系统实现。例如,采用例如多个集成电路(IC)芯片(例如,包括数字信号处理器、专用硬件等)和/或封装的各种架构、和/或各种计算设备和/或消费电子(CE)设备(诸如机顶盒、智能电话等)可以实现本文描述的技术和/或布置。另外,虽然以下描述可以阐述许多具体细节(诸如系统组件的逻辑实施方式、类型和相互关系,逻辑划分/集成选择,等等),但是可以在没有这些具体细节的情况下实践所要求保护的主题。在其他情况下,可能不详细示出某一材料(例如控制结构和完整软件指令序列),以免使本文公开的材料模糊。本文公开的材料可以用硬件、固件、软件或其任何组合来实现。本文公开的材料还可被实现为存储在机器可读介质上的指令,其可以由一个或多个处理器读取和执行。机器可读介质可包括用于以机器(例如,计算设备)可读的形式存储或传输信息的任何介质和/或机制。例如,机器可读介质可包括只读存储器(ROM);随机存取存储器(RAM);磁盘存储介质;光存储介质;闪存设备;电、光、声或其他形式的传播信号(例如,载波、红外信号、数字信号等),等等。说明书中对“一个实施方式”、“实施方式”、“示例实施方式”等的提及表明所描述的实施方式可包括特定的特征、结构或特性,但是每个实施方式可能不一定包括该特定的特征、结构或特性。而且,这些短语不一定指的是相同的实施方式。另外,当结合实施例描述特定的特征、结构或特性时,认为结合其他实施方式(无论本文明确描述与否)来实现这样的特征、结构或特性在本领域技术人员的知识范围内。本文描述了与接收的音频输入的语音或非语音分类有关的方法、设备、装置、计算平台和物品。如上所述,接收的音频输入的语音或非语音检测可以在总是收听设备中实现,在语音唤醒实施方式中实现,在波束形成(例如,本文档来自技高网...

【技术保护点】
1.一种语音检测系统,包括:/n存储器,用于存储所接收的音频输入;和/n处理器,其被耦合到所述存储器,所述处理器用于:/n经由基于所接收的音频输入的声学模型的声学评分,生成多个概率分数,每个概率分数用于对应的音频单元;/n基于所述概率分数中的至少一些概率分数来更新语音模式模型以生成所述语音模式模型的每个状态的分数,其中所述语音模式模型包括第一非语音状态、在所述第一非语音状态之后的多个语音状态以及在所述语音状态之后的第二非语音状态,所述第一非语音状态包括多个自回路,每个自回路与所述概率分数中的非语音概率分数相关联,其中所述语音状态包括在所述第一非语音状态之后的第一语音状态以及在所述第一语音状态之后并在所述第二非语音状态之前的第二语音状态;/n基于对所述第一非语音状态的第一分数和所述第二语音状态的第二分数的比较,判定所接收的音频输入是否包括语音;和/n当所接收的音频输入包括语音时,提供语音检测指示符。/n

【技术特征摘要】
20180606 US 16/001,4961.一种语音检测系统,包括:
存储器,用于存储所接收的音频输入;和
处理器,其被耦合到所述存储器,所述处理器用于:
经由基于所接收的音频输入的声学模型的声学评分,生成多个概率分数,每个概率分数用于对应的音频单元;
基于所述概率分数中的至少一些概率分数来更新语音模式模型以生成所述语音模式模型的每个状态的分数,其中所述语音模式模型包括第一非语音状态、在所述第一非语音状态之后的多个语音状态以及在所述语音状态之后的第二非语音状态,所述第一非语音状态包括多个自回路,每个自回路与所述概率分数中的非语音概率分数相关联,其中所述语音状态包括在所述第一非语音状态之后的第一语音状态以及在所述第一语音状态之后并在所述第二非语音状态之前的第二语音状态;
基于对所述第一非语音状态的第一分数和所述第二语音状态的第二分数的比较,判定所接收的音频输入是否包括语音;和
当所接收的音频输入包括语音时,提供语音检测指示符。


2.如权利要求1所述的语音检测系统,其中,对所述第一分数和所述第二分数的所述比较包括将所述第二分数和所述第一分数之间的差异与阈值进行比较,其中所述第一语音状态通过多个第一转换而连接到所述第一非语音状态,每个第一转换对应于所述概率分数中的语音概率分数,并且所述第二非语音状态通过多个第二转换而连接到所述第二语音状态,每个第二转换对应于所述概率分数中的非语音概率分数。


3.如权利要求1或2所述的语音检测系统,所述处理器还用于:
基于所述第二非语音状态的第三分数超过所述第二分数,检测到语音信号的语音结束。


4.如权利要求3所述的语音检测系统,其中,所述处理器用于检测所述语音结束包括:所述处理器用于确定对于多个连续语音模型模式更新的大多数而言,所述第二非语音状态的分数超过所述第二语音状态的分数。


5.如权利要求1至4中任一项所述的语音检测系统,所述处理器还用于:
基于所述语音模式模型的先前更新,基于所述第一语音状态的第四分数超过所述第一非语音状态的第五分数,检测到所述语音信号的语音开始;和
基于所述语音开始和所述语音结束,提供所述语音信号的时间指示符。


6.如权利要求1至5中任一项所述的语音检测系统,所述处理器还用于:
训练第二声学模型,其中所述第二声学模型包括多个输出节点,每个输出节点对应于噪声、无声或子语音单元中的一个,每个子语音单元与多个单音素中的一个相关联;
在所述训练期间确定所述子语音单元中的每个子语音单元的使用率;
针对所述多个单音素中的每个单音素,确定与最高使用率子语音单元相对应的所选择的输出节点;和
将与所述最高使用率子语音单元相对应的所选择的输出节点包括在所述声学模型中,并丢弃对应于所述子语音单元的剩余输出节点。


7.如权利要求1至6中任一项所述的语音检测系统,其中,所述第二非语音状态是通过多个转换而连接到所述第二语音状态的无声状态,每个转换对应于所述多个分数中的无声分数。


8.如权利要求1所述的语音检测系统,其中所述语音模式模型包括紧接在所述第二语音状态之后并紧接在所述第二非语音状态之前的一个或多个第三非语音状态,其中所述第三非语音状态中的一个通过多个转换而连接到所述第二非语音状态,每个转换对应于所述多个自回路的非语音概率分数。


9.如权利要求1所述的语音检测系统,其中所述第一语音状态通过多个第一转换而连接到所述第一非语音状态,每个第一转换对应于所述概率分数中的语音概率分数,其中后续的非语音状态通过对应于所述语音概率分数的对应多个第二转换而连接到先前的非语音状态,并且其中所述第二非语音状态通过多个第三转换而连接到所述第二语音状态,每个第三转换对应于所述多个自回路的非语音概率分数。


10.如权利要求9所述的语音检测系统,其中,所述处理器用于更新所述语音模式模型包括所述处理器用于进行以下操作:
基于所述第一非语音状态的先前分数和所述多个自回路的非语音概率分数中的最大概率分数,在所述第一非语音状态处提供连续求和;和
基于以下两个分数的总和来提供除所述第二语音状态之外的每个语音状态处的值:紧接在前状态的先前分数、所述语音概率分数中的最大概率分数。


11.如权利要求10所述的语音检测系统,其中,所述处理器用于更新所述语音模式模型还包括所述处理器用于进行以下操作:
基于以下二者的总和来提供所述第二语音状态的值:紧接在前语音状态的先前分数和所述第二语音状态的先前分数中的最大值、所述语音概率分数中的最大概率分数。


12.如权利要求1至11中任一项所述的语音检测系...

【专利技术属性】
技术研发人员:玛西耶·穆金林斯基托比亚斯·博克雷
申请(专利权)人:英特尔公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1