VAD尾点检测方法、装置、服务器和计算机可读介质制造方法及图纸

技术编号:25525435 阅读:39 留言:0更新日期:2020-09-04 17:14
本公开提供一种VAD尾点检测方法和智能设备,通过确定语音包中包含VAD尾点的概率pa,并在解码语音包后,确定与语音包对应的文字指令的语义完整性的概率pn,根据pa、pn和预设的阈值,确定语音包是否包含VAD尾点,从而将声学VAD检测和语义VAD检测相结合,实现VAD尾点检测;本公开VAD尾点检测更加准确,可以避免语音停顿导致的误检,并解决语音包中VAD尾点过长导致的反应迟钝的问题,提升语音人机交互过程中的用户体验。本公开还提供一种服务器和计算机可读介质。

【技术实现步骤摘要】
VAD尾点检测方法、装置、服务器和计算机可读介质
本公开涉及语音识别
,具体涉及一种VAD尾点检测方法、装置、服务器和计算机可读介质。
技术介绍
语音人机交互是指以语音为信息载体与智能设备进行互动。近些年,随着语音识别技术的发展和智能设备的普及,在诸如智能音箱、家电和车载设备中,语音人机交互已经成为重要的人机交互方式。在语音人机交互过程中,用户在不同场景发出语音指令的语速快慢和停顿是随机的,因而可能会出现如下两种不好的交互体验:一种情况是用户以较快的语速发出语音指令,在某些特殊场景下,智能设备可能会等待一段时间才做出响应,给用户的感觉是智能设备反应“迟钝”。另一种情况是用户发出语音指令的语速较慢或者中途出现停顿,在这种情况下,可能会出现语音截断,这将直接影响后续的语音识别结果。在某些特殊的使用场景下,上述两种情况对用户体验的影响尤为严重。
技术实现思路
本公开针对现有技术中存在的上述不足,提供一种VAD尾点检测方法、装置、服务器和计算机可读介质。第一方面,本公开实施例提供一种VAD尾点检测方法,所述方法包括:确定语音包中包含VAD尾点的概率pa;解码所述语音包,得到与所述语音包对应的文字指令;确定所述文字指令的语义完整性的概率pn;根据所述pa、pn和预设的阈值,确定所述语音包中是否包含VAD尾点。优选的,所述确定所述文字的语义完整性的概率pn具体包括:根据预设的规则确定所述文字指令的语义完整性的概率pn,或者,根据预设的规则和预设的语义完整性模型确定所述文字指令的语义完整性的概率pn。优选的,所述规则包括高频句式集合;所述根据预设的规则确定所述文字指令的语义完整性的概率pn,具体包括:将所述文字指令与所述高频句式集合匹配,若在所述高频句式集合中匹配到所述文字指令,则确定所述文字指令的语义完整性的概率pn。优选的,所述根据预设的规则和预设的语义完整性模型确定所述文字指令的语义完整性的概率pn,具体包括:将所述文字指令与所述高频句式集合匹配,若在所述高频句式集合中未匹配到所述文字指令,则提取所述文字指令的特征向量,并将所述特征向量输入所述语义完整性模型,得到所述文字指令的语义完整性的概率pn。优选的,所述特征向量包括以下其中之一或任意组合:字向量、词边界向量、词类型向量。进一步的,VAD尾点检测方法还包括获取所述语义完整性模型的训练数据的步骤,所述步骤包括:从线上日志中获取指令,并分别统计各所述指令出现的频率;根据各所述指令的出现频率和预设的频率阈值筛选高频指令,并为所述高频指令标识第一标记;将所述高频指令随机切分为多个指令,分别判断各个切分指令与所述高频指令是否相同,为与所述高频指令相同的切分指令标识第二标记,并为与所述高频指令不同的指令标识第三标记。优选的,所述阈值包括第一阈值TNmax、第二阈值TNmin、第三阈值TA1和第四阈值TA2,TNmin<TNmax;所述根据所述pa、pn和预设的阈值,确定所述语音包中是否包含VAD尾点,具体包括:将pn与TNmax相比较,若pn>TNmax,则将pa与TA1相比较,若pa>TA1,则确定所述语音包中包含VAD尾点,否则,不确定所述语音包中是否包含VAD尾点;若pn≤TNmax,则将pn与TNmin相比较,若pn>TNmin,则将pa与TA2相比较,若pa>TA2,则确定所述语音包中包含VAD尾点,否则,不确定所述语音包中是否包含VAD尾点;若pn≤TNmin,则确定所述语音包中不包含VAD尾点。另一方面,本公开实施例还提供一种智能设备,所述智能设备包括:声学VAD检测模块、解码模块、语义完整性检测模块和处理模块;所述声学VAD检测模块用于,确定语音包中包含VAD尾点的概率pa;所述解码模块用于,解码所述语音包,得到与所述语音包对应的文字指令;所述语义完整性检测模块用于,确定所述文字指令的语义完整性的概率pn;所述处理模块用于,根据所述pa、pn和预设的阈值,确定所述语音包中是否包含VAD尾点。优选的,所述语义完整性检测模块具体用于,根据预设的规则确定所述文字指令的语义完整性的概率pn,或者,根据预设的规则和预设的语义完整性模型确定所述文字指令的语义完整性的概率pn。优选的,所述规则包括高频句式集合;所述语义完整性检测模块具体用于,将所述文字指令与所述高频句式集合匹配,若在所述高频句式集合中匹配到所述文字指令,则确定所述文字指令的语义完整性的概率pn。优选的,所述语义完整性检测模块具体用于,将所述文字指令与所述高频句式集合匹配,若在所述高频句式集合中未匹配到所述文字指令,则提取所述文字指令的特征向量,并将所述特征向量输入所述语义完整性模型,得到所述文字指令的语义完整性的概率pn。优选的,所述特征向量包括以下其中之一或任意组合:字向量、词边界向量、词类型向量。进一步的,所述智能设备还包括数据挖掘模块,所述数据挖掘模块用于,从线上日志中获取指令,并分别统计各所述指令出现的频率;根据各所述指令的出现频率和预设的频率阈值筛选高频指令,并为所述高频指令标识第一标记;将所述高频指令随机切分为多个指令,分别判断各个切分指令与所述高频指令是否相同,为与所述高频指令相同的切分指令标识第二标记,并为与所述高频指令不同的指令标识第三标记。优选的,所述阈值包括第一阈值TNmax、第二阈值TNmin、第三阈值TA1和第四阈值TA2,TNmin<TNmax;所述处理模块具体用于,将pn与TNmax相比较,当pn>TNmax时,将pa与TA1相比较,若pa>TA1,则确定所述语音包中包含VAD尾点,若pa≤TA1,则不确定所述语音包中是否包含VAD尾点;当pn≤TNmax时,将pn与TNmin相比较,若pn>TNmin,则将pa与TA2相比较,若pa>TA2,则确定所述语音包中包含VAD尾点,若pa≤TA2,不确定所述语音包中是否包含VAD尾点;若pn≤TNmin,则确定所述语音包中不包含VAD尾点。又一方面,本公开实施例还提供一种服务器,包括:一个或多个处理器;存储装置,其上存储有一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如前所述的VAD尾点检测方法。再一方面,本公开实施例还提供一种计算机可读介质,其上存储有计算机程序,其中,所述程序被执行时实现如前所述的VAD尾点检测方法。本公开的实施例,通过确定语音包中包含VAD尾点的概率pa,并在解码语音包后,确定与语音包对应的文字指令的语义完整性的概率pn,根据pa、pn和预设的阈值,确定语音包是否包含VAD尾点,从而将声学VAD检测和语义VAD检测相结合,实现VAD尾点检测;本公开VAD尾点检测更加准确,可以避免语音停顿导致的误检,并解决语音包中VAD尾点过长导致的反本文档来自技高网...

【技术保护点】
1.一种VAD尾点检测方法,其中,所述方法包括:/n确定语音包中包含VAD尾点的概率pa;/n解码所述语音包,得到与所述语音包对应的文字指令;/n确定所述文字指令的语义完整性的概率pn;/n根据所述pa、pn和预设的阈值,确定所述语音包中是否包含VAD尾点。/n

【技术特征摘要】
1.一种VAD尾点检测方法,其中,所述方法包括:
确定语音包中包含VAD尾点的概率pa;
解码所述语音包,得到与所述语音包对应的文字指令;
确定所述文字指令的语义完整性的概率pn;
根据所述pa、pn和预设的阈值,确定所述语音包中是否包含VAD尾点。


2.如权利要求1所述的方法,其中,所述确定所述文字的语义完整性的概率pn具体包括:根据预设的规则确定所述文字指令的语义完整性的概率pn,或者,根据预设的规则和预设的语义完整性模型确定所述文字指令的语义完整性的概率pn。


3.如权利要求2所述的方法,其中,所述规则包括高频句式集合;所述根据预设的规则确定所述文字指令的语义完整性的概率pn,具体包括:将所述文字指令与所述高频句式集合匹配,若在所述高频句式集合中匹配到所述文字指令,则确定所述文字指令的语义完整性的概率pn。


4.如权利要求2所述的方法,其中,所述根据预设的规则和预设的语义完整性模型确定所述文字指令的语义完整性的概率pn,具体包括:将所述文字指令与所述高频句式集合匹配,若在所述高频句式集合中未匹配到所述文字指令,则提取所述文字指令的特征向量,并将所述特征向量输入所述语义完整性模型,得到所述文字指令的语义完整性的概率pn。


5.如权利要求4所述的方法,其中,所述特征向量包括以下其中之一或任意组合:字向量、词边界向量、词类型向量。


6.如权利要求2所述的方法,其中,还包括获取所述语义完整性模型的训练数据的步骤,所述步骤包括:
从线上日志中获取指令,并分别统计各所述指令出现的频率;
根据各所述指令的出现频率和预设的频率阈值筛选高频指令,并为所述高频指令标识第一标记;
将所述高频指令随机切分为多个指令,分别判断各个切分指令与所述高频指令是否相同,为与所述高频指令相同的切分指令标识第二标记,并为与所述高频指令不同的指令标识第三标记。


7.如权利要求1-6任一项所述的方法,其中,所述阈值包括第一阈值TNmax、第二阈值TNmin、第三阈值TA1和第四阈值TA2,TNmin<TNmax;所述根据所述pa、pn和预设的阈值,确定所述语音包中是否包含VAD尾点,具体包括:
将pn与TNmax相比较,若pn>TNmax,则将pa与TA1相比较,若pa>TA1,则确定所述语音包中包含VAD尾点,否则,不确定所述语音包中是否包含VAD尾点;
若pn≤TNmax,则将pn与TNmin相比较,若pn>TNmin,则将pa与TA2相比较,若pa>TA2,则确定所述语音包中包含VAD尾点,否则,不确定所述语音包中是否包含VAD尾点;若pn≤TNmin,则确定所述语音包中不包含VAD尾点。


8.一种智能设备,其中,包括:声学VAD检测模块、解码模块、语义完整性检测模块和处理模块;
所述声学VAD检测模块用于,确定语音包中包含VAD尾点的概率pa;
所述解...

【专利技术属性】
技术研发人员:臧启光付晓寅陈涛郭启行吴玉芳瞿琴
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1