当前位置: 首页 > 专利查询>英特尔公司专利>正文

唤醒语音关键短语分割制造技术

技术编号:22566706 阅读:89 留言:0更新日期:2019-11-16 12:44
本公开涉及唤醒语音关键短语分割。提供了用于关键短语的分割的技术。根据实施例的实现该技术的方法包括:对从音频信号的时间分段提取的特征向量进行累加;以及基于那些特征向量生成一组声学评分。一组声学评分中的每个声学评分代表与时间分段相关联的语音类别的可能性。该方法还包括:生成评分模型状态序列的进展,每个评分模型状态序列基于与从音频信号的时间分段生成的声学评分组中的相应的一组声学评分相关联的语音单元的检测。该方法还包括:分析评分状态序列的进展以检测与该进展相关联的模式,并且基于检测模式与期望模式的对齐确定用于关键短语的分割的起始点和结束点。

Segmentation of key phrases in wakeup speech

The present disclosure relates to the segmentation of key phrases of wake-up speech. The technology of key phrase segmentation is provided. The method of realizing the technology according to the embodiment includes: accumulating the feature vectors extracted from the time segment of the audio signal; and generating a set of acoustic scores based on those feature vectors. Each of the acoustic scores in a set of acoustic scores represents the likelihood of speech categories associated with the time segment. The method also includes: the progress of generating scoring model state sequences, each of which is based on the detection of speech units associated with a corresponding set of acoustic scores in the acoustic score group generated from the time segmentation of the audio signal. The method also includes: analyzing the progress of scoring status sequence to detect the pattern associated with the progress, and determining the starting point and the ending point for segmentation of key phrases based on the alignment of the detection pattern and the expected pattern.

【技术实现步骤摘要】
唤醒语音关键短语分割
本公开涉及唤醒语音关键短语分割。
技术介绍
关键短语检测是语音使能设备中的重要特征。设备可以由来自用户的特定关键短语的话语从低功率侦听状态唤醒。关键短语检测事件发起人与设备的对话,例如,对于个人助理的命令或问题。这种对话包括对用户的语音的进一步处理,并且该处理的有效性很大程度上取决于确定音频信号中的关键短语的边界的精确度(该处理被称为关键短语分割)。但是,对于关键短语分割技术仍然存在大量重要问题。
技术实现思路
根据本公开的一方面,提供了一种用于关键短语分割的方法,该方法包括:由神经网络基于特征向量的累加(accumulation)生成一组声学评分,所述特征向量是从音频信号的时间分段(timesegment)提取的,所述一组声学评分中的每个声学评分代表与所述时间分段相关联的语音类别(phoneticclass)的可能性;由关键短语模型解码器生成评分模型状态序列的进展,所述评分模型状态序列中的每个评分模型状态序列基于与从所述音频信号的所述时间分段生成的声学评分组中的相应的一组声学评分相关联的语音单元的检测;由关键短语分割电路分析评分状态序列的所述进展,以检测与所述进展相关联的模式;以及由所述关键短语分割电路基于检测模式与期望模式的对齐确定用于关键短语的分割的起始点和结束点。根据本公开的另一方面,提供了一种关键短语分割系统,该系统包括:特征提取电路,所述特征提取电路从音频信号的时间分段提取特征向量;累加电路,所述累加电路对所提取的特征向量中的选定数目的特征向量进行累加;声学模型评分神经网络,所述声学模型评分神经网络基于所累加的特征向量生成一组声学评分,所述一组声学评分中的每个声学评分代表与所述时间分段相关联的语音类别的可能性;关键短语模型评分电路,所述关键短语模型评分电路生成评分模型状态序列的进展,所述评分模型状态序列中的每个评分模型状态序列基于与从所述音频信号的所述时间分段生成的声学评分组中的相应的一组声学评分相关联的语音单元的检测;以及关键短语分割电路,所述关键短语分割电路分析评分状态序列的所述进展以检测与所述进展相关联的模式,并基于检测模式与期望模式的对齐确定用于关键短语的分割的起始点和结束点。根据本公开的另一方面,提供了至少一种非暂态计算机可读存储介质,其上编码有指令,所述指令在被一个或多个处理器执行时使得用于关键短语分割的处理被执行,所述处理包括:对从音频信号的时间分段提取的特征向量进行累加;基于所累加的特征向量生成一组声学评分,所述一组声学评分中的每个声学评分代表与所述时间分段相关联的语音类别的可能性;生成评分模型状态序列的进展,每个评分模型状态语音单元基于与从所述音频信号的所述时间分段生成的声学评分组中的相应的一组声学评分相关联的语音单元的检测;分析评分状态序列的所述进展,以检测与所述进展相关联的模式;以及基于检测模式与期望模式的对齐,确定用于关键短语的分割的起始点和结束点。根据本公开的另一方面,提供了一种用于关键短语分割的装置,该装置包括:用于基于特征向量的累加生成一组声学评分的装置,所述特征向量是从音频信号的时间分段提取的,所述一组声学评分中的每个声学评分代表与所述时间分段相关联的语音类别的可能性;用于生成评分模型状态序列的进展的装置,所述评分模型状态序列中的每个评分模型状态序列基于与从所述音频信号的所述时间分段生成的声学评分组中的相应的一组声学评分相关联的语音单元的检测;用于分析评分状态序列的所述进展,以检测与所述进展相关联的模式的装置;以及用于基于检测模式与期望模式的对齐确定用于关键短语的分割的起始点和结束点的装置。附图说明随着下面的详细描述的进行,并且在参考附图的情况下,请求保护的主题的实施例的特征和优点将变得显而易见,其中,相同的标号描绘相同的部分。图1是根据本公开的某些实施例配置的语音使能设备的顶层框图。图2是根据本公开的某些实施例配置的关键短语检测和分割电路的框图。图3是根据本公开的某些实施例配置的隐马尔可夫模型(HiddenMarkovModel,HMM)关键短语评分电路的框图。图4示出了根据本公开的某些实施例的HMM状态序列。图5示出了根据本公开的某些实施例的HMM状态序列的进展。图6是根据本公开的某些实施例配置的关键短语分割电路的框图。图7是示出根据本公开的某些实施例配置的起始点计算电路的实施方式的流程图。图8是示出根据本公开的某些实施例配置的结束点计算电路的实施方式的流程图。图9是示出根据本公开的某些实施例的关键短语分割方法的流程图。图10是示意性地示出根据本公开的某些实施例的被配置为执行关键短语分割的语音使能设备平台的框图。尽管将参考说明性实施例进行下面的详细描述,但是根据本公开的很多替代、修改、和变形将显而易见。具体实施方式如前所述,针对语音使能设备中的关键短语分割技术仍然存在大量重要问题。例如,一些现有的关键短语分割技术基于语音活动检测,语音活动检测依赖于信号能量的变化来确定语音的起始点和停止点。这些技术的精确度有限,尤其是在噪声环境中的精确度有限。其他方法使用同样没有利用期望关键短语的先验知识的简单语音分类器,因此容易对语音进行错误分类,从而产生会不利地影响语音使能设备的性能的分割错误。因此,本公开提供了精确度提高的用于实时从音频流中分割所检测到的唤醒语音关键短语的技术。关键短语的检测可以使语音使能设备从低功率侦听状态被唤醒到更高功率处理状态以用于辨认、理解、以及响应用户的语音。从输入音频信号中精确分割关键短语(例如,确定关键短语的起始时间和停止时间)对于这些后续语音处理任务的可靠性能很重要,下面将列出这些后续语音处理任务的示例。在一个实施例中,这些技术在利用期望信号特性的先验知识(包括关键短语的语音或子语音单元的序列)的语音使能设备中被实现,这允许从背景信号和噪声中更好地区分出关键短语。在一些这样的示例实施例中,这是通过跟踪期望模式的隐马尔可夫模型(HMM)关键短语模型评分以及识别产生匹配评分序列的输入音频信号的分段实现的,如下面将更详细地描述的。所公开的技术可以实现在例如计算机系统或可以由这类系统执行或控制的软件产品中,尽管其他实施例将是显而易见的。该系统或产品被配置为执行用于语音使能设备的关键短语分割。根据一个实施例,实现这些技术的方法包括对从音频信号的时间分段提取的特征向量进行累加。该方法还包括实现神经网络,以基于所累加的特征向量生成一组声学评分。一组声学评分中的每个声学评分代表与时间分段相关联的语音类别的可能性。该方法还包括实现关键短语模型解码器,以生成模型状态评分序列的进展。每个评分模型状态序列基于与从音频信号的时间分段生成的声学评分组中的相应的一组声学评分相关联的(子)语音单元的检测。该方法还包括分析评分状态序列的进展以检测与该进展相关联的模式,并且基于检测模式与期望模式的对齐确定用于关键短语的分割的起始点和结束点。将明白的是,本文描述的技术可以通过提供唤醒语音关键短语的本文档来自技高网...

【技术保护点】
1.一种用于关键短语分割的方法,该方法包括:/n由神经网络基于特征向量的累加生成一组声学评分,所述特征向量是从音频信号的时间分段提取的,所述一组声学评分中的每个声学评分代表与所述时间分段相关联的语音类别的可能性;/n由关键短语模型解码器生成评分模型状态序列的进展,所述评分模型状态序列中的每个评分模型状态序列基于与从所述音频信号的所述时间分段生成的声学评分组中的相应的一组声学评分相关联的语音单元的检测;/n由关键短语分割电路分析评分状态序列的所述进展,以检测与所述进展相关联的模式;以及/n由所述关键短语分割电路基于检测模式与期望模式的对齐确定用于关键短语的分割的起始点和结束点。/n

【技术特征摘要】
20180507 US 15/972,3691.一种用于关键短语分割的方法,该方法包括:
由神经网络基于特征向量的累加生成一组声学评分,所述特征向量是从音频信号的时间分段提取的,所述一组声学评分中的每个声学评分代表与所述时间分段相关联的语音类别的可能性;
由关键短语模型解码器生成评分模型状态序列的进展,所述评分模型状态序列中的每个评分模型状态序列基于与从所述音频信号的所述时间分段生成的声学评分组中的相应的一组声学评分相关联的语音单元的检测;
由关键短语分割电路分析评分状态序列的所述进展,以检测与所述进展相关联的模式;以及
由所述关键短语分割电路基于检测模式与期望模式的对齐确定用于关键短语的分割的起始点和结束点。


2.如权利要求1所述的方法,还包括:基于所述声学评分组中的声学评分的累加和传播,检测所述关键短语。


3.如权利要求2所述的方法,其中,所述起始点的确定进一步基于与所述关键短语的检测相关联的所述时间分段之一。


4.如权利要求1-3中任一项所述的方法,其中,所述神经网络是深度神经网络,并且所述关键短语模型解码器是隐马尔可夫模型解码器。


5.如权利要求1-3中任一项所述的方法,其中,所述语音类别是语音单元、子语音单元、三音素状态、以及单因素状态中的至少一者。


6.如权利要求1-3中任一项所述的方法,还包括:将所述起始点和所述结束点提供给声学波束形成系统、自动语音辨认系统、说话人识别系统、文本相关说话人识别系统、情绪辨认系统、性别检测系统、年龄检测系统、以及噪声估计系统中的至少一者。


7.如权利要求1-3中任一项所述的方法,其中,所述神经网络、关键短语模型解码器、以及关键短语分割电路中的每一者是利用一个或多个处理器执行的指令实现的。


8.一种关键短语分割系统,该系统包括:
特征提取电路,所述特征提取电路从音频信号的时间分段提取特征向量;
累加电路,所述累加电路对所提取的特征向量中的选定数目的特征向量进行累加;
声学模型评分神经网络,所述声学模型评分神经网络基于所累加的特征向量生成一组声学评分,所述一组声学评分中的每个声学评分代表与所述时间分段相关联的语音类别的可能性;
关键短语模型评分电路,所述关键短语模型评分电路生成评分模型状态序列的进展,所述评分模型状态序列中的每个评分模型状态序列基于与从所述音频信号的所述时间分段生成的声学评分组中的相应的一组声学评分相关联的语音单元的检测;以及
关键短语分割电路,所述关键短语分割电路分析评分状态序列的所述进展以检测与所述进展相关联的模式,并基于检测模式与期望模式的对齐确定用于关键短语的分割的起始点和结束点。


9.如权利要求8所述的系统,其中,所述关键短语模型评分电路还基于所述声学评分组中的声学评分的累加和传播检测所述关键短语。


10.如权利要求9所述的系统,其中,所述起始点的确定进一步基于与所述关键短语的检测相关联的所述时间分段之一。


11.如权利要求10所述的系统,其中,所述声学模型评分神经网络是深度神经网络,并且所述关键短语模型评分电路实现隐马尔可夫模型解码器。


12.如权利要求8-11中任一项所述的系统,其中,所述语音类别是语音单元、子语音单元、三音素状态、和单音素状态中的至少一者。


13.如权利要求8-11中任一项所述的状态,其中,所述特征提取电路、累加电路、声学模型评分神经网络、关键短语模型评分电路、以及关键短语分割电路中的每一者是利用一个或多个处理器执行的指令实现的。


14.至少一种非暂态计算机可读存储介质,...

【专利技术属性】
技术研发人员:托马什·多劳托比亚斯·博克雷普热米司勒·托马谢夫斯基塞巴斯蒂安·切里巴尤利乌斯·诺尔曼·霍耶茨基
申请(专利权)人:英特尔公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利