用于语音唤醒的音频的语音分类制造技术

技术编号：22975843 阅读：50 留言：0更新日期：2019-12-31 23:50

本公开涉及用于语音唤醒的音频的语音分类。语音或非语音检测技术被讨论并且包括：使用来自声学模型的概率分数来更新语音模式模型以生成语音模式模型的每个状态的分数，使得语音模式模型包括具有多个自回路的第一非语音状态、在第一非语音状态之后的多个语音状态、以及在语音状态之后的第二非语音状态，其中每个自回路与概率分数中的非语音概率分数相关联；以及基于第一非语音状态的分数和多个语音状态中的最后语音状态的分数的比较来检测语音。

Speech classification of audio for voice wake-up

全部详细技术资料下载

【技术实现步骤摘要】
用于语音唤醒的音频的语音分类
本公开涉及用于语音唤醒的音频的语音分类。
技术介绍
在运行中执行的鲁棒的低功率语音/非语音检测为输入音频信号的进一步处理提供了重要信息。顾名思义，语音/非语音检测将接收的音频输入分类为语音或非语音。这种技术的应用包括用于总是收听设备(alwayslisteningdevices)的语音检测、音频预处理的准确度提高、波束形成以及与文本无关的说话者识别。例如，当分析仅基于真实语音信号而去除无声(silence)和噪声片段时，与文本无关的说话者识别(SID)系统具有提高的准确度。另外，对于文本相关的SID，可以通过低功率系统中的语音唤醒来执行语音检测。当前的语音/非语音检测可以依赖于基于样本的语音活动检测，该语音活动检测依赖于音频信号特性，诸如信号的短期能量和过零率。然而，这种检测系统不准确并且具有高的假阳性率和假阴性率。其他技术包括基于频率的语音活动检测，其在某些频带中提供对能量的频域分析(例如，在应用快速傅立叶变换之后)。然而，这种技术具有低准确度的类似限制。因此，现有技术不提供高质量的低资源语音/非语音分类。随着实现语音唤醒、总是收听设备等的愿望变得更加普遍，这些问题可能变得至关重要。
技术实现思路
根据本公开的一方面，提供了一种语音检测系统，包括：存储器，用于存储所接收的音频输入；和处理器，其被耦合到所述存储器，所述处理器用于：经由基于所接收的音频输入的声学模型的声学评分，生成多个概率分数，每个概率分数用于对应的音频单元；基于所述概率分数中的至少一些...

【技术保护点】
1.一种语音检测系统，包括：/n存储器，用于存储所接收的音频输入；和/n处理器，其被耦合到所述存储器，所述处理器用于：/n经由基于所接收的音频输入的声学模型的声学评分，生成多个概率分数，每个概率分数用于对应的音频单元；/n基于所述概率分数中的至少一些概率分数来更新语音模式模型以生成所述语音模式模型的每个状态的分数，其中所述语音模式模型包括第一非语音状态、在所述第一非语音状态之后的多个语音状态以及在所述语音状态之后的第二非语音状态，所述第一非语音状态包括多个自回路，每个自回路与所述概率分数中的非语音概率分数相关联，其中所述语音状态包括在所述第一非语音状态之后的第一语音状态以及在所述第一语音状态之后并在所述第二非语音状态之前的第二语音状态；/n基于对所述第一非语音状态的第一分数和所述第二语音状态的第二分数的比较，判定所接收的音频输入是否包括语音；和/n当所接收的音频输入包括语音时，提供语音检测指示符。/n

【技术特征摘要】
20180606 US 16/001,4961.一种语音检测系统，包括：
存储器，用于存储所接收的音频输入；和
处理器，其被耦合到所述存储器，所述处理器用于：
经由基于所接收的音频输入的声学模型的声学评分，生成多个概率分数，每个概率分数用于对应的音频单元；
基于所述概率分数中的至少一些概率分数来更新语音模式模型以生成所述语音模式模型的每个状态的分数，其中所述语音模式模型包括第一非语音状态、在所述第一非语音状态之后的多个语音状态以及在所述语音状态之后的第二非语音状态，所述第一非语音状态包括多个自回路，每个自回路与所述概率分数中的非语音概率分数相关联，其中所述语音状态包括在所述第一非语音状态之后的第一语音状态以及在所述第一语音状态之后并在所述第二非语音状态之前的第二语音状态；
基于对所述第一非语音状态的第一分数和所述第二语音状态的第二分数的比较，判定所接收的音频输入是否包括语音；和
当所接收的音频输入包括语音时，提供语音检测指示符。

2.如权利要求1所述的语音检测系统，其中，对所述第一分数和所述第二分数的所述比较包括将所述第二分数和所述第一分数之间的差异与阈值进行比较，其中所述第一语音状态通过多个第一转换而连接到所述第一非语音状态，每个第一转换对应于所述概率分数中的语音概率分数，并且所述第二非语音状态通过多个第二转换而连接到所述第二语音状态，每个第二转换对应于所述概率分数中的非语音概率分数。

3.如权利要求1或2所述的语音检测系统，所述处理器还用于：
基于所述第二非语音状态的第三分数超过所述第二分数，检测到语音信号的语音结束。

4.如权利要求3所述的语音检测系统，其中，所述处理器用于检测所述语音结束包括：所述处理器用于确定对于多个连续语音模型模式更新的大多数而言，所述第二非语音状态的分数超过所述第二语音状态的分数。

5.如权利要求1至4中任一项所述的语音检测系统，所述处理器还用于：
基于所述语音模式模型的先前更新，基于所述第一语音状态的第四分数超过所述第一非语音状态的第五分数，检测到所述语音信号的语音开始；和
基于所述语音开始和所述语音结束，提供所述语音信号的时间指示符。

6.如权利要求1至5中任一项所述的语音检测系统，所述处理器还用于：
训练第二声学模型，其中所述第二声学模型包括多个输出节点，每个输出节点对应于噪声、无声或子语音单元中的一个，每个子语音单元与多个单音素中的一个相关联；
在所述训练期间确定所述子语音单元中的每个子语音单元的使用率；
针对所述多个单音素中的每个单音素，确定与最高使用率子语音单元相对应的所选择的输出节点；和
将与所述最高使用率子语音单元相对应的所选择的输出节点包括在所述声学模型中，并丢弃对应于所述子语音单元的剩余输出节点。

7.如权利要求1至6中任一项所述的语音检测系统，其中，所述第二非语音状态是通过多个转换而连接到所述第二语音状态的无声状态，每个转换对应于所述多个分数中的无声分数。

8.如权利要求1所述的语音检测系统，其中所述语音模式模型包括紧接在所述第二语音状态之后并紧接在所述第二非语音状态之前的一个或多个第三非语音状态，其中所述第三非语音状态中的一个通过多个转换而连接到所述第二非语音状态，每个转换对应于所述多个自回路的非语音概率分数。

9.如权利要求1所述的语音检测系统，其中所述第一语音状态通过多个第一转换而连接到所述第一非语音状态，每个第一转换对应于所述概率分数中的语音概率分数，其中后续的非语音状态通过对应于所述语音概率分数的对应多个第二转换而连接到先前的非语音状态，并且其中所述第二非语音状态通过多个第三转换而连接到所述第二语音状态，每个第三转换对应于所述多个自回路的非语音概率分数。

10.如权利要求9所述的语音检测系统，其中，所述处理器用于更新所述语音模式模型包括所述处理器用于进行以下操作：
基于所述第一非语音状态的先前分数和所述多个自回路的非语音概率分数中的最大概率分数，在所述第一非语音状态处提供连续求和；和
基于以下两个分数的总和来提供除所述第二语音状态之外的每个语音状态处的值：紧接在前状态的先前分数、所述语音概率分数中的最大概率分数。

11.如权利要求10所述的语音检测系统，其中，所述处理器用于更新所述语音模式模型还包括所述处理器用于进行以下操作：
基于以下二者的总和来提供所述第二语音状态的值：紧接在前语音状态的先前分数和所述第二语音状态的先前分数中的最大值、所述语音概率分数中的最大概率分数。

12.如权利要求1至11中任一项所述的语音检测系...

【专利技术属性】
技术研发人员：玛西耶·穆金林斯基，托比亚斯·博克雷，
申请(专利权)人：英特尔公司，
类型：发明
国别省市：美国;US

全部详细技术资料下载我是这个专利的主人