用于关键短语识别的系统和方法技术方案

技术编号：21519556 阅读：51 留言：0更新日期：2019-07-03 10:46

用于关键短语识别的方法可以包括：获得音频；获得对应于至少两个音频部分的至少两个候选词，并获得所获得的候选词与音频部分之间的每个对应关系的第一概率分数；确定至少两个候选词是否分别匹配关键短语的至少两个关键词，以及至少两个候选词的每个的第一概率分数是否超过对应的第一阈值，至少两个候选词构成一个候选短语；以及响应于确定至少两个候选词匹配至少两个关键词且每个第一概率得分超过对应的阈值，基于至少两个候选词的每个的第一概率得分，获取表示候选短语与关键短语之间的匹配关系的第二概率得分。

System and Method for Key Phrase Recognition

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】用于关键短语识别的系统和方法
本公开一般涉及用于语音识别中的关键词语识别的方法和技术。
技术介绍
人机交互的进步可以允许人们使用他们的声音来实现对机器的控制。例如，可以通过语音输入来实现基于诸如键盘、鼠标或触摸屏的传统指令输入的命令触发。然而，为了简化该过程，仍有许多障碍需要克服。
技术实现思路
本申请的各种实施例包括用于关键短语识别的系统、方法和非暂时性计算机可读介质。用于关键短语识别的示例性方法可以包括：获得包括音频部分的序列的音频；获得对应于至少两个音频部分的至少两个候选词，并获得所获得的候选词与音频部分之间的每个对应关系的第一概率分数；确定至少两个候选词是否分别匹配关键短语的至少两个关键词，以及至少两个候选词的每个的第一概率分数是否超过对应的第一阈值，至少两个候选词构成候选短语；响应于确定至少两个候选词匹配至少两个关键词且每个第一概率得分超过对应的阈值，基于至少两个候选词的每个的第一概率得分，获取表示候选短语与关键短语之间的匹配关系的第二概率得分；以及响应于确定第二概率分数超过第二阈值，将候选短语确定为关键短语。在一些实施例中，该方法可以由包括麦克风、处理器和...

【技术保护点】
1.一种关键短语识别的方法，包括：获得包含音频部分的序列的音频；获得对应于至少两个所述音频部分的至少两个候选词，并获得所述获得的候选词与所述音频部分之间的每个对应关系的第一概率分数；确定所述至少两个候选词是否分别匹配关键短语的至少两个关键词，以及所述至少两个候选词的每个的第一概率分数是否超过对应的第一阈值，所述至少两个候选词构成候选短语；响应于确定所述至少两个候选词匹配所述至少两个关键词且每个所述第一概率分数超过所述对应的阈值，基于所述至少两个候选词的每个的第一概率分数，获得表示所述候选短语与关键短语之间的匹配关系的第二概率得分；以及响应于确定所述第二概率得分超过第二阈值，将所述候选短语确定为...

【技术特征摘要】
【国外来华专利技术】1.一种关键短语识别的方法，包括：获得包含音频部分的序列的音频；获得对应于至少两个所述音频部分的至少两个候选词，并获得所述获得的候选词与所述音频部分之间的每个对应关系的第一概率分数；确定所述至少两个候选词是否分别匹配关键短语的至少两个关键词，以及所述至少两个候选词的每个的第一概率分数是否超过对应的第一阈值，所述至少两个候选词构成候选短语；响应于确定所述至少两个候选词匹配所述至少两个关键词且每个所述第一概率分数超过所述对应的阈值，基于所述至少两个候选词的每个的第一概率分数，获得表示所述候选短语与关键短语之间的匹配关系的第二概率得分；以及响应于确定所述第二概率得分超过第二阈值，将所述候选短语确定为所述关键短语。2.根据权利要求1所述的方法，其特征在于：获得对应于所述至少两个所述音频部分的所述至少两个候选词，并获得所述获得的候选词与所述音频部分之间每个对应关系的第一概率分数，包括：获得与所述音频对应的声谱图；沿着所述声谱图获得每个时间帧的特征向量，以获得对应于所述声谱图的至少两个特征向量；获得对应于所述至少两个特征向量的至少两个语言单元；至少基于将语言单元映射到单词的词典获得对应于所述音频的候选词序列，并且对于所述每个候选词，至少基于用语言单元的样本序列训练的模型获得所述第一概率分数；以及从所述候选词序列中获取所述至少两个候选词。3.根据权利要求2所述的方法，其特征在于，所述方法进一步包括：至少基于所述时间帧确定所述获得的音频中的所述关键短语的开始时间和结束时间。4.根据权利要求1所述的方法，其特征在于：所述至少两个候选词是按时间顺序；以及所述至少两个候选词和所述至少两个关键词之间的各自匹配包括所述候选短语中的顺序次序中的候选词与所述关键短语中的相同顺序次序中的关键词之间的匹配。5.根据权利要求4所述的方法，其特征在于：确定所述至少两个候选词是否分别匹配所述至少两个所述关键短语的关键词，以及所述至少两个候选词的每个的第一概率分数是否超过对应的第一阈值，包括：分别在前向或后向顺序次序中，确定所述至少两个候选词和所述至少两个关键词之间的各自匹配。6.根据权利要求1所述的方法，其特征在于，所述方法进一步包括：响应于确定所述至少两个候选词中的任何一个的第一概率分数不超过对应阈值，不将所述候选短语确定为所述关键短语。7.根据权利要求1所述的方法，其特征在于：所述方法不是基于或部分基于语音模型实现的；以及所述方法不是由语音解码器实现或部分由语音解码器实现的。8.根据权利要求1所述的方法，其特征在于：所述关键短语包括唤醒应用程序的短语、标准化语言的短语，或紧急触发短语中的至少一个。9.根据权利要求1所述的方法，其特征在于：所述方法可由包括麦克风的移动设备实现；以及所述获得的音频包括由车辆中的一个或以上乘员的麦克风记录的语音。10.一种关键短语识别系统，包括：一个处理器；和一种存储指令的非暂时性计算机可读存储介质，当该指令由所述处理器执行时，使所述处理器执行方法，所述方法包括：获得包含音频部分的序列的音频；获得对应于至少两个所述音频部分的至少两个候选词，并获得所述获得的候选词与所述音频部分之间的每个对应关系的第一概率分数；确定所述至少两个候选词是否分别匹配关键短语的至少两个关键词，以及所述至少两个候选词的每个的第一概率分数是否超过对应的第一阈值，所述至少两个候选词构成候选短语；响应于确定所述至少两个候选词匹配所述至少两个关键词和所述每个第一概率分数超过所述对应的阈值，基于所述至少两个候选词的每个的第一概率分数，获得表示所述候选短语与关键短语之间的匹配关系的第二概率得分；以及响应于确定所述第二概率得分超过第二阈值，将所述候选短语确定为所述关...

【专利技术属性】
技术研发人员：周荣，
申请(专利权)人：北京嘀嘀无限科技发展有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人