The present disclosure relates to the segmentation of key phrases of wake-up speech. The technology of key phrase segmentation is provided. The method of realizing the technology according to the embodiment includes: accumulating the feature vectors extracted from the time segment of the audio signal; and generating a set of acoustic scores based on those feature vectors. Each of the acoustic scores in a set of acoustic scores represents the likelihood of speech categories associated with the time segment. The method also includes: the progress of generating scoring model state sequences, each of which is based on the detection of speech units associated with a corresponding set of acoustic scores in the acoustic score group generated from the time segmentation of the audio signal. The method also includes: analyzing the progress of scoring status sequence to detect the pattern associated with the progress, and determining the starting point and the ending point for segmentation of key phrases based on the alignment of the detection pattern and the expected pattern.
【技术实现步骤摘要】
唤醒语音关键短语分割
本公开涉及唤醒语音关键短语分割。
技术介绍
关键短语检测是语音使能设备中的重要特征。设备可以由来自用户的特定关键短语的话语从低功率侦听状态唤醒。关键短语检测事件发起人与设备的对话,例如,对于个人助理的命令或问题。这种对话包括对用户的语音的进一步处理,并且该处理的有效性很大程度上取决于确定音频信号中的关键短语的边界的精确度(该处理被称为关键短语分割)。但是,对于关键短语分割技术仍然存在大量重要问题。
技术实现思路
根据本公开的一方面,提供了一种用于关键短语分割的方法,该方法包括:由神经网络基于特征向量的累加(accumulation)生成一组声学评分,所述特征向量是从音频信号的时间分段(timesegment)提取的,所述一组声学评分中的每个声学评分代表与所述时间分段相关联的语音类别(phoneticclass)的可能性;由关键短语模型解码器生成评分模型状态序列的进展,所述评分模型状态序列中的每个评分模型状态序列基于与从所述音频信号的所述时间分段生成的声学评分组中的相应的一组声学评分相关联的语音单元的检测;由关键短语分割电路分析评分状态序列的所述进展,以检测与所述进展相关联的模式;以及由所述关键短语分割电路基于检测模式与期望模式的对齐确定用于关键短语的分割的起始点和结束点。根据本公开的另一方面,提供了一种关键短语分割系统,该系统包括:特征提取电路,所述特征提取电路从音频信号的时间分段提取特征向量;累加电路,所述累加电路对所提取的特征向量中的选定数目的特征向量进行累加;声 ...
【技术保护点】
1.一种用于关键短语分割的方法,该方法包括:/n由神经网络基于特征向量的累加生成一组声学评分,所述特征向量是从音频信号的时间分段提取的,所述一组声学评分中的每个声学评分代表与所述时间分段相关联的语音类别的可能性;/n由关键短语模型解码器生成评分模型状态序列的进展,所述评分模型状态序列中的每个评分模型状态序列基于与从所述音频信号的所述时间分段生成的声学评分组中的相应的一组声学评分相关联的语音单元的检测;/n由关键短语分割电路分析评分状态序列的所述进展,以检测与所述进展相关联的模式;以及/n由所述关键短语分割电路基于检测模式与期望模式的对齐确定用于关键短语的分割的起始点和结束点。/n
【技术特征摘要】
20180507 US 15/972,3691.一种用于关键短语分割的方法,该方法包括:
由神经网络基于特征向量的累加生成一组声学评分,所述特征向量是从音频信号的时间分段提取的,所述一组声学评分中的每个声学评分代表与所述时间分段相关联的语音类别的可能性;
由关键短语模型解码器生成评分模型状态序列的进展,所述评分模型状态序列中的每个评分模型状态序列基于与从所述音频信号的所述时间分段生成的声学评分组中的相应的一组声学评分相关联的语音单元的检测;
由关键短语分割电路分析评分状态序列的所述进展,以检测与所述进展相关联的模式;以及
由所述关键短语分割电路基于检测模式与期望模式的对齐确定用于关键短语的分割的起始点和结束点。
2.如权利要求1所述的方法,还包括:基于所述声学评分组中的声学评分的累加和传播,检测所述关键短语。
3.如权利要求2所述的方法,其中,所述起始点的确定进一步基于与所述关键短语的检测相关联的所述时间分段之一。
4.如权利要求1-3中任一项所述的方法,其中,所述神经网络是深度神经网络,并且所述关键短语模型解码器是隐马尔可夫模型解码器。
5.如权利要求1-3中任一项所述的方法,其中,所述语音类别是语音单元、子语音单元、三音素状态、以及单因素状态中的至少一者。
6.如权利要求1-3中任一项所述的方法,还包括:将所述起始点和所述结束点提供给声学波束形成系统、自动语音辨认系统、说话人识别系统、文本相关说话人识别系统、情绪辨认系统、性别检测系统、年龄检测系统、以及噪声估计系统中的至少一者。
7.如权利要求1-3中任一项所述的方法,其中,所述神经网络、关键短语模型解码器、以及关键短语分割电路中的每一者是利用一个或多个处理器执行的指令实现的。
8.一种关键短语分割系统,该系统包括:
特征提取电路,所述特征提取电路从音频信号的时间分段提取特征向量;
累加电路,所述累加电路对所提取的特征向量中的选定数目的特征向量进行累加;
声学模型评分神经网络,所述声学模型评分神经网络基于所累加的特征向量生成一组声学评分,所述一组声学评分中的每个声学评分代表与所述时间分段相关联的语音类别的可能性;
关键短语模型评分电路,所述关键短语模型评分电路生成评分模型状态序列的进展,所述评分模型状态序列中的每个评分模型状态序列基于与从所述音频信号的所述时间分段生成的声学评分组中的相应的一组声学评分相关联的语音单元的检测;以及
关键短语分割电路,所述关键短语分割电路分析评分状态序列的所述进展以检测与所述进展相关联的模式,并基于检测模式与期望模式的对齐确定用于关键短语的分割的起始点和结束点。
9.如权利要求8所述的系统,其中,所述关键短语模型评分电路还基于所述声学评分组中的声学评分的累加和传播检测所述关键短语。
10.如权利要求9所述的系统,其中,所述起始点的确定进一步基于与所述关键短语的检测相关联的所述时间分段之一。
11.如权利要求10所述的系统,其中,所述声学模型评分神经网络是深度神经网络,并且所述关键短语模型评分电路实现隐马尔可夫模型解码器。
12.如权利要求8-11中任一项所述的系统,其中,所述语音类别是语音单元、子语音单元、三音素状态、和单音素状态中的至少一者。
13.如权利要求8-11中任一项所述的状态,其中,所述特征提取电路、累加电路、声学模型评分神经网络、关键短语模型评分电路、以及关键短语分割电路中的每一者是利用一个或多个处理器执行的指令实现的。
14.至少一种非暂态计算机可读存储介质,...
【专利技术属性】
技术研发人员:托马什·多劳,托比亚斯·博克雷,普热米司勒·托马谢夫斯基,塞巴斯蒂安·切里巴,尤利乌斯·诺尔曼·霍耶茨基,
申请(专利权)人:英特尔公司,
类型:发明
国别省市:美国;US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。