基于词比较的语音端点定位的方法、系统和介质技术方案

技术编号:25525438 阅读:13 留言:0更新日期:2020-09-04 17:14
本发明专利技术的各实施例涉及基于词比较的语音端点定位。描述了用于基于词比较的语音端点定位的方法、系统以及包括编码在计算机存储介质上的计算机程序的装置。在一个方面,一种方法包括获得话语的转录的动作。动作进一步包括将文本样本的汇集中的(i)包括与转录匹配的词语并且(ii)不包括任何附加的词语的文本样本的数量确定为第一值。动作进一步包括将文本样本的汇集中的(i)包括与转录匹配的词语并且(ii)包括一个或者多个附加的词语的文本样本的数量确定为第二值。动作进一步包括至少基于比较第一值与第二值来将话语分类为很可能不完整的话语或者非很可能不完整的话语。

【技术实现步骤摘要】
基于词比较的语音端点定位的方法、系统和介质本申请是申请日为2015年4月22日、申请号为201510195100.9、专利技术名称为“基于词比较的语音端点定位”的专利技术专利申请的分案申请。相关申请的交叉引用本申请要求于2014年4月23日提交的、申请号为61/983,025的美国专利申请的权益,其内容通过引用并入。
本公开内容总体上涉及语音识别,并且一个特定实现方式涉及对语音进行端点定位(endpointing)。
技术介绍
自然语言处理系统通常使用端点器(endpointer)来确定用户何时开始以及结束说话。一些传统的端点器在确定话语何时开始或者结束时对词之间的停顿的持续时间进行评价。例如,如果用户说“whatis<长停顿>fordinner”,则传统的端点器可以在长停顿处分割话音输入,并且可以指令自然语言处理系统尝试处理不完整的短语“whatis”,而不是处理完整的短语“whatisfordinner”。如果端点器为话音输入指定了错误的开始点或者结束点,则使用自然语言处理系统处理语音的结果可能是错误的或者不符合需要的。
技术实现思路
根据在本说明书中所描述的主题内容的创新的方面,一种计算设备可以接收由用户说出的话语的话音输入,并且可以使用连续语音识别器来递增地转录话语。计算设备比较递增地识别的转录与来自文本样本的汇集(诸如,由其他用户之前提交给搜索引擎的搜索查询的汇集)中的文本样本进行比较,以确定转录更可能表示完整的查询还是不完整的查询。根据一个方式,确定转录更可能表示完整的查询还是不完整的查询包括:确定与转录匹配并且不包括任何附加的词语(term)的文本样本的数量,并且确定与转录匹配并且包括一个或者多个附加的词语的文本样本的数量。计算设备可以然后基于那两个数量确定比率并且比较确定的比率与阈值比率。如果确定的比率不满足阈值比率,则计算设备将话语分类为很可能不完整的话语。如果确定的比率满足阈值比率,则计算设备将话语分类为非很可能不完整的话语。基于将话语分类为很可能完整的话语或者不完整的话语,设备可以对话音输入进行端点定位,或者可以去激活麦克风或者将麦克风维持在激活状态。如果话语被分类为很可能不完整的话语,则设备可以将麦克风维持在激活状态以接收附加的话语,或者可以在对话音输入进行端点定位之前进一步等待。如果话语被分类为非很可能不完整的话语,则设备可以去激活麦克风并且处理话语,或者可以在对话音输入进行端点定位之前不进行进一步等待。一般来说,在本说明书中所描述的主题内容的另一个创新的方面可以被实施为方法,这些方法包括以下动作:获得话语的转录;将文本样本的汇集中的(i)包括与转录匹配的词语并且(ii)不包括任何附加的词语的文本样本的数量确定为第一值;将文本样本的汇集中的(i)包括与转录匹配的词语并且(ii)包括一个或者多个附加的词语的文本样本的数量确定为第二值;并且至少基于比较第一值与第二值来将话语分类为很可能不完整的话语或者非很可能不完整的话语。这些和其他实施例可以各自可选地包括以下特征中的一个或者多个特征。将文本样本的汇集中的(i)包括与转录匹配的词语并且(ii)不包括任何附加的词语的文本样本的数量确定为第一值的动作包括:在每个文本样本中确定与转录匹配的词语以与在转录中相同的顺序出现。将文本样本的汇集中的(i)包括与转录匹配的词语并且(ii)包括一个或者多个附加的词语的文本样本的数量确定为第二值的动作包括:在每个文本样本中确定与转录匹配的词语在每个文本样本的前缀处出现。至少基于比较第一值与第二值来将话语分类为很可能不完整的话语或者非很可能不完整的话语的动作包括:确定第一值与第二值的比率;确定比率满足阈值比率;并且基于确定比率满足阈值比率来将话语分类为很可能不完整的话语。至少基于比较第一值与第二值来将话语分类为很可能不完整的话语或者非很可能不完整的话语的动作包括:将话语分类为很可能不完整的话语;并且基于将话语分类为很可能不完整的话语来将麦克风维持在激活状态以接收附加的话语。至少基于比较第一值与第二值来将话语分类为很可能不完整的话语或者非很可能不完整的话语的动作包括:将话语分类为非很可能不完整的话语;并且基于将话语分类为非很可能不完整的话语来去激活麦克风。这些动作进一步包括接收指示话语完整的数据;其中至少基于比较第一值与第二值来将话语分类为很可能不完整的话语或者非很可能不完整的话语包括:将话语分类为很可能不完整的话语;并且基于将话语分类为很可能不完整的话语来覆盖指示话语完整的数据。这一方面的其他实施例包括对应的系统、装置以及记录在计算机存储设备上的计算机程序,每个均被配置为执行该方法的操作。一般来说,在本说明书中所描述的主题内容的另一个创新的方面可以被实施为方法,这些方法包括以下动作:获得话语的转录;确定在文本样本的汇集中,与话语所匹配的相比,话语是更经常地与(i)包括与转录匹配的词语并且不包括任何附加的词语的文本样本匹配,还是更经常地与(ii)包括与转录匹配的词语并且包括一个或者多个附加的词语的文本样本匹配;并且基于该确定来确定话语是否很可能不完整。这一方面的其他实施例包括对应的系统、装置以及记录在计算机存储设备上的计算机程序,每个均被配置为执行该方法的操作。在本说明书中所描述的主题内容的特定实施例可以被实施以使得实现以下优点中的一个或者多个优点。用户可以使用计算设备的话音输入能力并且以对用户来说舒适的速度说话。话语可以在话语的预期的结束处被端点定位,从而得到更精确的或更希望的自然语言处理输出,并且得到自然语言处理系统的更快的处理。在背景噪声存在的情况下,话语可以在话语的预期的结束处被端点定位。在本说明书中所描述的主题内容的一个或者多个实施例的细节在以下的附图和描述中被阐明。主题内容的其他特征、方面和优点将从描述、附图以及权利要求书变得显而易见。附图说明图1A至图1C是话语和在对话语是否很可能不完整进行分类中使用的示例信号的示图。图2是将话语分类为很可能完整或者很可能不完整示例系统的示图。图3是用于对话语是否很可能不完整进行分类的示例过程的示图。在各个附图中相同的附图标记和标示指示相同的元件。具体实施方式图1是话语和在对话语是否很可能不完整进行分类中使用的示例信号的示图100。一般来说,示图100图示了在计算设备110处理传入音频输入102时由计算设备110生成或者检测到的信号102至108。计算设备110通过计算设备的麦克风或者其他音频输入设备来接收音频输入102,并且对音频输入102是很可能完整的话语还是很可能不完整的话语进行分类。计算设备110接收音频输入102并且以预先指定的频率和分辨率对音频输入102采样。例如,计算设备110可以在8kHz、16kHz、44.1kHz或任何其他采样率对音频输入102采样,并且分辨率可以是16比特、32比特或任何其他分辨率。音频输入102图示了基于来自用户114的话语112的采样的模拟数据。在图1本文档来自技高网...

【技术保护点】
1.一种计算机实现的方法,包括:/n由一个或多个计算设备接收话语的音频数据;/n基于音频数据,由一个或多个计算设备确定话语是完整的话语的第一可能性;/n由一个或多个计算设备生成话语的转录;/n基于话语的转录,由一个或多个计算设备确定话语是完整的话语的第二可能性;以及/n基于话语是完整的话语的第一可能性和话语是完整的话语的第二可能性,由一个或多个计算设备确定是否在话语的音频数据的结束处指定话语的端点。/n

【技术特征摘要】
20140423 US 61/983,0251.一种计算机实现的方法,包括:
由一个或多个计算设备接收话语的音频数据;
基于音频数据,由一个或多个计算设备确定话语是完整的话语的第一可能性;
由一个或多个计算设备生成话语的转录;
基于话语的转录,由一个或多个计算设备确定话语是完整的话语的第二可能性;以及
基于话语是完整的话语的第一可能性和话语是完整的话语的第二可能性,由一个或多个计算设备确定是否在话语的音频数据的结束处指定话语的端点。


2.根据权利要求1所述的方法,其中,确定话语是完整的话语的第一可能性包括:
确定话语的音频数据中当能量水平低于阈值能量水平时的时段;
将该时段与阈值时段比较;以及
基于将沉默的时段与阈值时段进行比较来确定话语是完整的话语的第一可能性。


3.根据权利要求1所述的方法,其中,确定话语是完整的话语的第二可能性包括:
将话语的转录与被识别为完整的话语的文本样本的第一汇集进行比较;
将话语的转录与被识别为不完整的话语的文本样本的第二汇集进行比较;以及
基于将话语的转录与被识别为完整的话语的文本样本的第一汇集进行比较和基于将话语的转录与被识别为不完整的话语的文本样本的第二汇集进行比较,确定话语是完整的话语的第二可能性。


4.根据权利要求3所述的方法,其中,将话语的转录与被识别为完整的话语的文本样本的第一汇集进行比较包括:
确定第一汇集中与话语的转录匹配的文本样本的第一值;以及
确定第二汇集中与话语的转录匹配的文本样本的第二值。


5.根据权利要求3所述的方法,其中,将话语的转录与被识别为完整的话语的文本样本的第一汇集进行比较包括:
确定第一汇集中的每个文本样本中的词语是否以与话语的转录的词语相同的顺序出现;以及
确定第二汇集中的每个文本样本中的词语是否以与话语的转录的词语相同的顺序出现。


6.根据权利要求1所述的方法,其中,确定是否在话语的音频数据的结束处指定话语的端点包括:
确定在话语的音频数据的结束处指定话语的端点。


7.根据权利要求6所述的方法,包括:
基于确定在话语的音频数据的结束处指定话语的端点,由一个或多个计算设备去激活检测话语的麦克风。


8.根据权利要求1所述的方法,其中,确定是否在话语的音频数据的结束处指定话语的端点包括:
确定延迟在话语的音频数据的结束处指定话语的端点。


9.根据权利要求8所述的方法,包括:
基于确定在话语的音频数据的结束处指定话语的端点,由一个或多个计算设备维持检测话语的麦克风处于激活状态。


10.一种系统,包括:
一个或多个计算机以及存储指令的一个或多个存储设备,当由一个或多个计算机执行时,所述指令可操作来使得一个或多个计算机执行操作,包括:
由一个或多个计算设备接收话语的音频数据;
基于音频数据,由一个或多个计算设备确定话语是完整的话语的第一可能性;
由一个或多个计算设备生成话语的转录;
基于话语的转录,由一个或多个计算设备确定话语是完整的话语的第二可能性;以及
基于话语是完整的话语的第一可能性和话语是完整的话语的第二可能性,由一个或多个计算设备确定是否在话语的音频数据的结束处指定话语的端点。


11.根据权利要求10所述的系统,其中,确定话语是完整的话语的第一可能性包括:
确定话语的音频数据中当能量水平低于阈值能量水平时的时段;
将该时段与阈值时段比较;以及
基于将沉默的时段与阈值时段进行比较来确定话语是完整的话语的第一可能性。


12.根据权利要求10所述的系统,其中,确定话语是完整的话语的第二可能性包括:
将话语的转录与被识别为完整的话语的文本样本的第一汇集进行比较;
将话语的转录与被识别为不完整的话语的文本样本的第二汇集进行比较;以及
基于将话语的转录与被识别为完整的话语的文本样本的第一汇集进行比较和基于将话语的转录与被识别为不完整的话语的文本样本的第二汇集进行比较,确定话语是完整的话语的第二可能性。


13.根据权利要求12所述的系统,其中,将话语的转录与被识别为完整的话语的文本样本的第一汇集进行比较包括:
确定第一汇集中与话语的转录匹配的文本样本的第一值;以及
确定第二汇集中与话语的转录匹配的文本样本的第二值。


14.根据权利要求12所述的系统,其中,将话语的转录与被识别为完整的话语的文本样本的第一汇集进行比较包括:
确定第一汇集中的每个文本样本中的词语是否以与话语的转录的词语相同的顺序出现;以及
确定第二汇集中的每个文本样本中的词语是否以与话语的转录的词语相同的顺序出现。


15.根据权利要求10所述的系统,其中,确定是否在话语的音频数据的结束处指定话语的端点包括:
确定在话语的音频数据的结束处指定话语的端点。


16.根据权利要求15所述的系统,其中,操作包括:
基于确定在话语的音频数据的结束处指定话语的端点,由一个或多个计算设备去激活检测话语的麦克风。


17.根据权利要求10所述的系统,其中,确定是否在话语的音频数据的结束处指定话语的端点包括:
确定延迟在话语的音频数据的结束处指定话语的端点。


18.根据权利要求17所述的系统,其中,操作包括:
基于确定在话语的音频数据的结束处指定话语的端点,由一个或多个计算设备维持检测话语的麦克风处于激活状态。


19.一种非暂时性计算机可读介质,存储包括可由一个或多个计算机执行的指令的软件,这些指令在被相应执行时,使得所述一个或多个计算机执行操作,包括:
由一个或多个计算设备接收话语的音频数据;
基于音频数据,由一个或多个计算设备确定话语是完整的话语的第一可能性;
由一个或多个计算设备生成话语的转录;
基于话语的转录,由一个或多个计算设备确定话语是完整的话语的第二可能性;以及
基于话语是完整的话语的第一可能性和话语是完整的话语的第二可能性,由一个或多个计算设备确定是否在话语的音频数据的结束处指定话语的端点。


20.根据权利要求19所述的介质,其中,确定话语是完整的话语的第一可能性包括:
确定话语的音频数据中当能量水平低于阈值能量水平时的时段;
将该时段与阈值时段比较;以及
基于将沉默的时段与阈值时段进行比较来确定话语是完整的话语的第一可能性。


21.一种计算机实现的方法,包括:
由计算设备接收包括用户说出的话语的音频;
由计算设备确定包括话语的音频的能量水平高于阈值能量水平;
在计算设备接收包括话语的音频的同时以及在包括话语的音频的能量水平保持高于阈值能量水平的同时,由计算设备确定延迟指定用户说出的话语的端点,直到包括话语的音频的能量水平低于阈值能量水平为止;
在计算设备接收包括话语的音频的同时以及在包括话语的音频的能量水平保持高于阈值能量水平的同时,由计算设备获得用户说出的话语的转录;以及
在计算设备接收包括话语的音频的同时,在包括话语的音频的能量水平保持高于阈值能量水平的同时,并且基于话语的转录,由计算设备覆盖延迟指定用户说出的话语的端点的确定,并指定用户说出的话语的端点。


22.根据权利要求21所述的方法,包括:
由计算设备确定话语是很可能完整的;
其中,计算设备基于确定话语是很可能完整的而覆盖延迟指定用户说出的话语的端点的确定并指定话语的端点。


23.根据权利要求21所述的方法,包括:
由计算设备将转录与文本样本的汇集进行比较,
其中,计算设备基于将转录与文本样本的汇集进行比较而覆盖延迟指定用户说出的话语的端点的确定并指定话语的端点。


24.根据权利要求23所述的方法,包括:
基于将转录与文本样本的汇集进行比较,确定文本样本的汇集中与转录匹配且不包括任何附加的词语的文本样本的数量,
其中,基于文本样本的汇集中与转录匹配且不包括任何附加的词语的文本样本的数量,计算设备覆盖延迟指定用户说出的话语的端点的确定并指定话语的端点。


25.根据权利要求24所述的方法,包括:
确定文本样本的汇集中与转录匹配且不包括任何附加的词语的文本样本的每个中的词语以与转录中相同的顺序出现,
其中,基于确定文本样本的汇集中与转录匹配且不包括任何附加的词语的文本样本的每个中的词语以与转录中相同的顺序出现,计算设备覆盖延迟指定用户说出的话语的端点的确定并指定话语的端点。


26.根据权利要求23所述的方法,包括:
基于将转录与文本样本的汇集进行比较,确定文本样本的汇集中与转录匹配且包括一个或多个附加的词语的文本样本的数量,
其中,基于文本样本的汇集中与转录匹配且包括一个或多个附加的词语的文本样本的数量,计算设备覆盖延迟指定用户说出的话语的端点的确定并指定话语的端点。


27.根据权利要求21所述的方法,其中:
接收包括用户说出的话语且具有高于阈值能量水平的能量水平的音频包括由计算设备的麦克风接收包括所述话语的音频,并且
覆盖延迟指定用户说出的话语的端点的确定并指定话语的端点包括在包括所述话语且由麦克风接收的音频的能量水平保持高于阈值能量水平的同时,由计算设备去激活麦克风。


28.一种系统,包括:
一个或多个计算机;以及
一个或多个计算机和存储指令的一个或多个存储设备,当由一个或多个计算机执行时,所述指令可操作来使得一个或多个计算机执行操作,包括:
由计算设备接收包括用户说出的话语的音频;
由计算设备确定包括话语的音频的能量水平高于阈值能量水平;
在计算设备接收包括话语的音频的同时以及在包括话语的音频的能量水平保持高于阈值能量水平的同时,由计算设备确定延迟指定用户说出的话语的端点,直到包括话语的音频的能量水平低于阈值能量水平为止;
在计算设备接收包括话语的音频的同时以及在包括话语的音频的能量水平保持高于阈值能量水平的同时,由计算设备获得用户说出的话语的转录;以及
在计算设备接收包括话语的音频的同时,在包括话语的音频的能量水平保持高于阈值能量水平的同时,并且基于话语的转录,由计算设备覆盖延迟指定用户说出的话语的端点的确定,并指定用户说出的话语的端点。


29.根据权利要求28所述的系统,其中,操作包括:
由计算设备确定话语是很可能完整的;
其中,计算设备基于确定话语是很可能完整的而覆盖延迟指定用户说出的话语的端点的确定并指定话语的端点。


30.根据权利要求28所述的系统,其中,操作包括:
由计算设备将转录与文本样本的汇集进行比较,
其中,计算设备基于将转录与文本样本的汇集进行比较而覆盖延迟指定用户说出的话语的端点的确定并指定话语的端点。


31.根据权利要求30所述的系统,其中,操作包括:
基于将转录与文本样本的汇集进行比较,确定文本样本的汇集中与转录匹配且不包括任何附加的词语的文本样本的数量,
其中,基于文本样本的汇集中与转录匹配且不包括任何附加的词语的文本样本的数量,计算设备覆盖延迟指定用户说出的话语的端点的确定并指定话语的端点。


32.根据权利要求31所述的系统,其中,操作包括:
确定文本样本的汇集中与转录匹配且不包括任何附加的词语的文本样本的每个中的词语以与转录中相同的顺序出现,
其中,基于确定文本样本的汇集中与转录匹配且不包括任何附加的词语的文本样本的每个中的词语以与转录中相同的顺序出...

【专利技术属性】
技术研发人员:M布坎南PK古普塔CB坦迪奥诺
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1