【技术实现步骤摘要】
基于词比较的语音端点定位的方法、系统和介质本申请是申请日为2015年4月22日、申请号为201510195100.9、专利技术名称为“基于词比较的语音端点定位”的专利技术专利申请的分案申请。相关申请的交叉引用本申请要求于2014年4月23日提交的、申请号为61/983,025的美国专利申请的权益,其内容通过引用并入。
本公开内容总体上涉及语音识别,并且一个特定实现方式涉及对语音进行端点定位(endpointing)。
技术介绍
自然语言处理系统通常使用端点器(endpointer)来确定用户何时开始以及结束说话。一些传统的端点器在确定话语何时开始或者结束时对词之间的停顿的持续时间进行评价。例如,如果用户说“whatis<长停顿>fordinner”,则传统的端点器可以在长停顿处分割话音输入,并且可以指令自然语言处理系统尝试处理不完整的短语“whatis”,而不是处理完整的短语“whatisfordinner”。如果端点器为话音输入指定了错误的开始点或者结束点,则使用自然语言处理系统处理语音的结果可能是错误的或者不符合需要的。
技术实现思路
根据在本说明书中所描述的主题内容的创新的方面,一种计算设备可以接收由用户说出的话语的话音输入,并且可以使用连续语音识别器来递增地转录话语。计算设备比较递增地识别的转录与来自文本样本的汇集(诸如,由其他用户之前提交给搜索引擎的搜索查询的汇集)中的文本样本进行比较,以确定转录更可能表示完整的查询还是不完整的查询。根据一个方 ...
【技术保护点】
1.一种计算机实现的方法,包括:/n由一个或多个计算设备接收话语的音频数据;/n基于音频数据,由一个或多个计算设备确定话语是完整的话语的第一可能性;/n由一个或多个计算设备生成话语的转录;/n基于话语的转录,由一个或多个计算设备确定话语是完整的话语的第二可能性;以及/n基于话语是完整的话语的第一可能性和话语是完整的话语的第二可能性,由一个或多个计算设备确定是否在话语的音频数据的结束处指定话语的端点。/n
【技术特征摘要】
20140423 US 61/983,0251.一种计算机实现的方法,包括:
由一个或多个计算设备接收话语的音频数据;
基于音频数据,由一个或多个计算设备确定话语是完整的话语的第一可能性;
由一个或多个计算设备生成话语的转录;
基于话语的转录,由一个或多个计算设备确定话语是完整的话语的第二可能性;以及
基于话语是完整的话语的第一可能性和话语是完整的话语的第二可能性,由一个或多个计算设备确定是否在话语的音频数据的结束处指定话语的端点。
2.根据权利要求1所述的方法,其中,确定话语是完整的话语的第一可能性包括:
确定话语的音频数据中当能量水平低于阈值能量水平时的时段;
将该时段与阈值时段比较;以及
基于将沉默的时段与阈值时段进行比较来确定话语是完整的话语的第一可能性。
3.根据权利要求1所述的方法,其中,确定话语是完整的话语的第二可能性包括:
将话语的转录与被识别为完整的话语的文本样本的第一汇集进行比较;
将话语的转录与被识别为不完整的话语的文本样本的第二汇集进行比较;以及
基于将话语的转录与被识别为完整的话语的文本样本的第一汇集进行比较和基于将话语的转录与被识别为不完整的话语的文本样本的第二汇集进行比较,确定话语是完整的话语的第二可能性。
4.根据权利要求3所述的方法,其中,将话语的转录与被识别为完整的话语的文本样本的第一汇集进行比较包括:
确定第一汇集中与话语的转录匹配的文本样本的第一值;以及
确定第二汇集中与话语的转录匹配的文本样本的第二值。
5.根据权利要求3所述的方法,其中,将话语的转录与被识别为完整的话语的文本样本的第一汇集进行比较包括:
确定第一汇集中的每个文本样本中的词语是否以与话语的转录的词语相同的顺序出现;以及
确定第二汇集中的每个文本样本中的词语是否以与话语的转录的词语相同的顺序出现。
6.根据权利要求1所述的方法,其中,确定是否在话语的音频数据的结束处指定话语的端点包括:
确定在话语的音频数据的结束处指定话语的端点。
7.根据权利要求6所述的方法,包括:
基于确定在话语的音频数据的结束处指定话语的端点,由一个或多个计算设备去激活检测话语的麦克风。
8.根据权利要求1所述的方法,其中,确定是否在话语的音频数据的结束处指定话语的端点包括:
确定延迟在话语的音频数据的结束处指定话语的端点。
9.根据权利要求8所述的方法,包括:
基于确定在话语的音频数据的结束处指定话语的端点,由一个或多个计算设备维持检测话语的麦克风处于激活状态。
10.一种系统,包括:
一个或多个计算机以及存储指令的一个或多个存储设备,当由一个或多个计算机执行时,所述指令可操作来使得一个或多个计算机执行操作,包括:
由一个或多个计算设备接收话语的音频数据;
基于音频数据,由一个或多个计算设备确定话语是完整的话语的第一可能性;
由一个或多个计算设备生成话语的转录;
基于话语的转录,由一个或多个计算设备确定话语是完整的话语的第二可能性;以及
基于话语是完整的话语的第一可能性和话语是完整的话语的第二可能性,由一个或多个计算设备确定是否在话语的音频数据的结束处指定话语的端点。
11.根据权利要求10所述的系统,其中,确定话语是完整的话语的第一可能性包括:
确定话语的音频数据中当能量水平低于阈值能量水平时的时段;
将该时段与阈值时段比较;以及
基于将沉默的时段与阈值时段进行比较来确定话语是完整的话语的第一可能性。
12.根据权利要求10所述的系统,其中,确定话语是完整的话语的第二可能性包括:
将话语的转录与被识别为完整的话语的文本样本的第一汇集进行比较;
将话语的转录与被识别为不完整的话语的文本样本的第二汇集进行比较;以及
基于将话语的转录与被识别为完整的话语的文本样本的第一汇集进行比较和基于将话语的转录与被识别为不完整的话语的文本样本的第二汇集进行比较,确定话语是完整的话语的第二可能性。
13.根据权利要求12所述的系统,其中,将话语的转录与被识别为完整的话语的文本样本的第一汇集进行比较包括:
确定第一汇集中与话语的转录匹配的文本样本的第一值;以及
确定第二汇集中与话语的转录匹配的文本样本的第二值。
14.根据权利要求12所述的系统,其中,将话语的转录与被识别为完整的话语的文本样本的第一汇集进行比较包括:
确定第一汇集中的每个文本样本中的词语是否以与话语的转录的词语相同的顺序出现;以及
确定第二汇集中的每个文本样本中的词语是否以与话语的转录的词语相同的顺序出现。
15.根据权利要求10所述的系统,其中,确定是否在话语的音频数据的结束处指定话语的端点包括:
确定在话语的音频数据的结束处指定话语的端点。
16.根据权利要求15所述的系统,其中,操作包括:
基于确定在话语的音频数据的结束处指定话语的端点,由一个或多个计算设备去激活检测话语的麦克风。
17.根据权利要求10所述的系统,其中,确定是否在话语的音频数据的结束处指定话语的端点包括:
确定延迟在话语的音频数据的结束处指定话语的端点。
18.根据权利要求17所述的系统,其中,操作包括:
基于确定在话语的音频数据的结束处指定话语的端点,由一个或多个计算设备维持检测话语的麦克风处于激活状态。
19.一种非暂时性计算机可读介质,存储包括可由一个或多个计算机执行的指令的软件,这些指令在被相应执行时,使得所述一个或多个计算机执行操作,包括:
由一个或多个计算设备接收话语的音频数据;
基于音频数据,由一个或多个计算设备确定话语是完整的话语的第一可能性;
由一个或多个计算设备生成话语的转录;
基于话语的转录,由一个或多个计算设备确定话语是完整的话语的第二可能性;以及
基于话语是完整的话语的第一可能性和话语是完整的话语的第二可能性,由一个或多个计算设备确定是否在话语的音频数据的结束处指定话语的端点。
20.根据权利要求19所述的介质,其中,确定话语是完整的话语的第一可能性包括:
确定话语的音频数据中当能量水平低于阈值能量水平时的时段;
将该时段与阈值时段比较;以及
基于将沉默的时段与阈值时段进行比较来确定话语是完整的话语的第一可能性。
21.一种计算机实现的方法,包括:
由计算设备接收包括用户说出的话语的音频;
由计算设备确定包括话语的音频的能量水平高于阈值能量水平;
在计算设备接收包括话语的音频的同时以及在包括话语的音频的能量水平保持高于阈值能量水平的同时,由计算设备确定延迟指定用户说出的话语的端点,直到包括话语的音频的能量水平低于阈值能量水平为止;
在计算设备接收包括话语的音频的同时以及在包括话语的音频的能量水平保持高于阈值能量水平的同时,由计算设备获得用户说出的话语的转录;以及
在计算设备接收包括话语的音频的同时,在包括话语的音频的能量水平保持高于阈值能量水平的同时,并且基于话语的转录,由计算设备覆盖延迟指定用户说出的话语的端点的确定,并指定用户说出的话语的端点。
22.根据权利要求21所述的方法,包括:
由计算设备确定话语是很可能完整的;
其中,计算设备基于确定话语是很可能完整的而覆盖延迟指定用户说出的话语的端点的确定并指定话语的端点。
23.根据权利要求21所述的方法,包括:
由计算设备将转录与文本样本的汇集进行比较,
其中,计算设备基于将转录与文本样本的汇集进行比较而覆盖延迟指定用户说出的话语的端点的确定并指定话语的端点。
24.根据权利要求23所述的方法,包括:
基于将转录与文本样本的汇集进行比较,确定文本样本的汇集中与转录匹配且不包括任何附加的词语的文本样本的数量,
其中,基于文本样本的汇集中与转录匹配且不包括任何附加的词语的文本样本的数量,计算设备覆盖延迟指定用户说出的话语的端点的确定并指定话语的端点。
25.根据权利要求24所述的方法,包括:
确定文本样本的汇集中与转录匹配且不包括任何附加的词语的文本样本的每个中的词语以与转录中相同的顺序出现,
其中,基于确定文本样本的汇集中与转录匹配且不包括任何附加的词语的文本样本的每个中的词语以与转录中相同的顺序出现,计算设备覆盖延迟指定用户说出的话语的端点的确定并指定话语的端点。
26.根据权利要求23所述的方法,包括:
基于将转录与文本样本的汇集进行比较,确定文本样本的汇集中与转录匹配且包括一个或多个附加的词语的文本样本的数量,
其中,基于文本样本的汇集中与转录匹配且包括一个或多个附加的词语的文本样本的数量,计算设备覆盖延迟指定用户说出的话语的端点的确定并指定话语的端点。
27.根据权利要求21所述的方法,其中:
接收包括用户说出的话语且具有高于阈值能量水平的能量水平的音频包括由计算设备的麦克风接收包括所述话语的音频,并且
覆盖延迟指定用户说出的话语的端点的确定并指定话语的端点包括在包括所述话语且由麦克风接收的音频的能量水平保持高于阈值能量水平的同时,由计算设备去激活麦克风。
28.一种系统,包括:
一个或多个计算机;以及
一个或多个计算机和存储指令的一个或多个存储设备,当由一个或多个计算机执行时,所述指令可操作来使得一个或多个计算机执行操作,包括:
由计算设备接收包括用户说出的话语的音频;
由计算设备确定包括话语的音频的能量水平高于阈值能量水平;
在计算设备接收包括话语的音频的同时以及在包括话语的音频的能量水平保持高于阈值能量水平的同时,由计算设备确定延迟指定用户说出的话语的端点,直到包括话语的音频的能量水平低于阈值能量水平为止;
在计算设备接收包括话语的音频的同时以及在包括话语的音频的能量水平保持高于阈值能量水平的同时,由计算设备获得用户说出的话语的转录;以及
在计算设备接收包括话语的音频的同时,在包括话语的音频的能量水平保持高于阈值能量水平的同时,并且基于话语的转录,由计算设备覆盖延迟指定用户说出的话语的端点的确定,并指定用户说出的话语的端点。
29.根据权利要求28所述的系统,其中,操作包括:
由计算设备确定话语是很可能完整的;
其中,计算设备基于确定话语是很可能完整的而覆盖延迟指定用户说出的话语的端点的确定并指定话语的端点。
30.根据权利要求28所述的系统,其中,操作包括:
由计算设备将转录与文本样本的汇集进行比较,
其中,计算设备基于将转录与文本样本的汇集进行比较而覆盖延迟指定用户说出的话语的端点的确定并指定话语的端点。
31.根据权利要求30所述的系统,其中,操作包括:
基于将转录与文本样本的汇集进行比较,确定文本样本的汇集中与转录匹配且不包括任何附加的词语的文本样本的数量,
其中,基于文本样本的汇集中与转录匹配且不包括任何附加的词语的文本样本的数量,计算设备覆盖延迟指定用户说出的话语的端点的确定并指定话语的端点。
32.根据权利要求31所述的系统,其中,操作包括:
确定文本样本的汇集中与转录匹配且不包括任何附加的词语的文本样本的每个中的词语以与转录中相同的顺序出现,
其中,基于确定文本样本的汇集中与转录匹配且不包括任何附加的词语的文本样本的每个中的词语以与转录中相同的顺序出...
【专利技术属性】
技术研发人员:M布坎南,PK古普塔,CB坦迪奥诺,
申请(专利权)人:谷歌有限责任公司,
类型:发明
国别省市:美国;US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。