一种语音端点检测方法及装置制造方法及图纸

技术编号:26508344 阅读:40 留言:0更新日期:2020-11-27 15:36
本发明专利技术提供一种语音端点检测方法及装置,该方法包括:获取用户输入的语音数据;对所述语音数据进行语音识别,得到所述语音数据对应的文本;对所述文本进行整句检测,得到第一检测结果;在目标检测结果指示所述文本为整句的情况下,输出语音活性检测VAD结束信号,其中,所述目标检测结果包括所述第一检测结果。本发明专利技术实施例相比于现有基于语音能量的VAD检测方式,可在减少无声段的等待时间即缩短响应时间的基础上,进一步提高语音端点检测结果的准确性。

【技术实现步骤摘要】
一种语音端点检测方法及装置
本专利技术涉及语音处理
,尤其涉及一种语音端点检测方法及装置。
技术介绍
语音信号一般可分为无声段、清音段和浊音段,其中,无声段是背景噪声段,平均能量最低,浊音段为声带振动发出对应的语音信号段,平均能量最高,清音段是空气在口腔中的摩擦、冲击或爆破而发出的语音信号段,平均能量居于前两者之间。语音活动检测(VoiceActivityDetection,VAD)又称语音端点检测,语音边界检测,其目的是检测当前语音信号中是否包含话音信号存在,即对输入信号进行判断,将话音信号与各种背景噪声信号区分出来。目前VAD算法是基于语音能量特征来判定语音信号的结束(即VADend),通常需要在“实际语音”结束后再检测一段“无声段”来确认语音是否已经结束,以避免语音发音各个文字之间的间隔或停顿导致VAD的误判结束,即实际语音尚未说完,则VAD误判为已经结束。而“无声段”时间通常为几百毫秒,这样就造成了一定的延迟:实际语音已经结束,但给出“判定语音结束”的结果延迟了几百毫秒,造成语音交互体验上可以明显感受到响应迟滞。现有技术中,为了优化VAD效果,减少响应时间,有采用情感向量作为是情感因素的衡量指标,依据情感因素来判断一句话是否结束的方案,但这种方案还是比较容易出现误判,即检测的准确性较低。
技术实现思路
本专利技术实施例提供一种语音端点检测方法及装置,以解决现有语音端点检测方式准确性较低的问题。为解决上述技术问题,本专利技术是这样实现的:第一方面,本专利技术实施例提供了一种语音端点检测方法,包括:获取用户输入的语音数据;对所述语音数据进行语音识别,得到所述语音数据对应的文本;对所述文本进行整句检测,得到第一检测结果;在目标检测结果指示所述文本为整句的情况下,输出语音活性检测VAD结束信号,其中,所述目标检测结果包括所述第一检测结果。可选的,所述对所述文本进行整句检测,得到第一检测结果,包括:将所述文本输入整句检测模型进行整句检测;获取所述整句检测识别模型输出的第一检测结果。可选的,所述整句检测模型通过如下方式训练得到:获取标定有语句结束位置的语句训练集;利用所述语句训练集对循环神经网络进行训练,得到所述整句检测模型。可选的,所述在目标检测结果指示所述文本为整句的情况下,输出语音活性检测VAD结束信号之前,所述方法还包括:对预设VAD算法进行目标调整,得到调整后的VAD优化算法,其中,所述目标调整包括移除或缩短所述预设VAD算法中的无声段的检测时间,和/或增加所述预设VAD算法的灵敏度阈值;采用所述VAD优化算法对所述语音数据进行语音信号结束检测,得到第二检测结果;所述目标检测结果包括所述第一检测结果和所述第二检测结果;所述在目标检测结果指示所述文本为整句的情况下,输出语音活性检测VAD结束信号,包括:在所述第一检测结果指示所述文本为整句,且所述第二检测结果指示用户输入语音数据结束的情况下,输出VAD结束信号。可选的,所述方法还包括:在所述第一检测结果指示所述文本不为整句,或所述第二检测结果指示用户输入语音数据未结束的情况下,继续等待用户输入语音数据。可选的,所述方法还包括:在所述第二检测结果持续第一预设时长指示用户输入语音数据结束的情况下,输出VAD结束信号。可选的,所述方法还包括:在所述第一检测结果指示所述文本不为整句的情况下,若检测到所述文本超过第二预设时长未更新的情况下,输出VAD结束信号。第二方面,本专利技术实施例提供一种语音端点检测装置,包括:获取模块,用于获取用户输入的语音数据;语音识别模块,用于对所述语音数据进行语音识别,得到所述语音数据对应的文本;整句检测模块,用于对所述文本进行整句检测,得到第一检测结果;第一输出模块,用于在目标检测结果指示所述文本为整句的情况下,输出语音活性检测VAD结束信号,其中,所述目标检测结果包括所述第一检测结果。可选的,所述整句检测模块包括:检测单元,用于将所述文本输入整句检测模型进行整句检测;获取单元,用于获取所述整句检测识别模型输出的检测结果。可选的,所述整句检测模型通过如下方式训练得到:获取标定有语句结束位置的语句训练集;利用所述语句训练集对循环神经网络进行训练,得到所述整句检测模型。可选的,所述语音端点检测装置还包括:调整模块,用于对预设VAD算法进行目标调整,得到调整后的VAD优化算法,其中,所述目标调整包括移除或缩短所述预设VAD算法中的无声段的检测时间,和/或增加所述预设VAD算法的灵敏度阈值;VAD检测模块,用于采用所述VAD优化算法对所述语音数据进行语音信号结束检测,得到第二检测结果;所述目标检测结果包括所述第一检测结果和所述第二检测结果;所述第一输出模块用于在所述第一检测结果指示所述文本为整句,且所述第二检测结果指示用户输入语音数据结束的情况下,输出VAD结束信号。可选的,所述语音端点检测装置还包括:决策模块,用于在所述第一检测结果指示所述文本不为整句,或所述第二检测结果指示用户输入语音数据未结束的情况下,继续等待用户输入语音数据。可选的,所述语音端点检测装置还包括:第二输出模块,用于在所述第二检测结果持续第一预设时长指示用户输入语音数据结束的情况下,输出VAD结束信号。可选的,所述语音端点检测装置还包括:第三输出模块,用于在所述第一检测结果指示所述文本不为整句的情况下,若检测到所述文本超过第二预设时长未更新的情况下,输出VAD结束信号。第三方面,本专利技术实施例提供一种语音端点检测装置,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现上述语音端点检测方法中的步骤。第四方面,本专利技术实施例提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述语音端点检测方法中的步骤。本专利技术实施例中,通过对用户输入的语音数据进行识别,并对识别后的文本进行整句检测,在检测为整句的情况下,输出VAD结束信号,即判定用户输入语音数据结束,这样,由于整句检测的方式可避免语音检测中的语速、情感等干扰,具备较高的准确性,因此,该方式相比于现有基于语音能量的VAD检测方式,可在减少无声段的等待时间即缩短响应时间的基础上,进一步提高语音端点检测结果的准确性。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对本专利技术实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术实施例提供的一种语音端点检测方法的流程图;图2是本文档来自技高网...

【技术保护点】
1.一种语音端点检测方法,其特征在于,包括:/n获取用户输入的语音数据;/n对所述语音数据进行语音识别,得到所述语音数据对应的文本;/n对所述文本进行整句检测,得到第一检测结果;/n在目标检测结果指示所述文本为整句的情况下,输出语音活性检测VAD结束信号,其中,所述目标检测结果包括所述第一检测结果。/n

【技术特征摘要】
1.一种语音端点检测方法,其特征在于,包括:
获取用户输入的语音数据;
对所述语音数据进行语音识别,得到所述语音数据对应的文本;
对所述文本进行整句检测,得到第一检测结果;
在目标检测结果指示所述文本为整句的情况下,输出语音活性检测VAD结束信号,其中,所述目标检测结果包括所述第一检测结果。


2.根据权利要求1所述的方法,其特征在于,所述对所述文本进行整句检测,得到第一检测结果,包括:
将所述文本输入整句检测模型进行整句检测;
获取所述整句检测识别模型输出的第一检测结果。


3.根据权利要求2所述的方法,其特征在于,所述整句检测模型通过如下方式训练得到:
获取标定有语句结束位置的语句训练集;
利用所述语句训练集对循环神经网络进行训练,得到所述整句检测模型。


4.根据权利要求1所述的方法,其特征在于,所述在目标检测结果指示所述文本为整句的情况下,输出语音活性检测VAD结束信号之前,所述方法还包括:
对预设VAD算法进行目标调整,得到调整后的VAD优化算法,其中,所述目标调整包括移除或缩短所述预设VAD算法中的无声段的检测时间,和/或增加所述预设VAD算法的灵敏度阈值;
采用所述VAD优化算法对所述语音数据进行语音信号结束检测,得到第二检测结果;
所述目标检测结果包括所述第一检测结果和所述第二检测结果;所述在目标检测结果指示所述文本为整句的情况下,输出语音活性检测VAD结束信号,包括:
在所述第一检测结果指示所述文本为整句,且所述第二检测结果指示用户输入语音数据结束的情况下,输出VA...

【专利技术属性】
技术研发人员:韩启源李智勇常乐
申请(专利权)人:北京声智科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1