语音处理方法及相关装置、电子设备、存储介质制造方法及图纸

技术编号:34543340 阅读:22 留言:0更新日期:2022-08-13 21:40
本申请公开了一种语音处理方法及相关装置、电子设备、存储介质,其中,语音处理方法包括:获取持续至当前时刻的空白语音的语音时长,并判断语音时长是否不小于首个检测时长;响应于语音时长不小于首个检测时长,基于截止至当前时刻采集到的有效语音,获取语音处理结果,并基于空白语音的端点时刻,确定参考时刻;将最新使用的检测时长的下一检测时长,作为参考时长,并判断从参考时刻开始持续采集参考时长的参考语音是否仍空白;若是且所有检测时长均已使用,则将最新获取的语音处理结果置为有效。上述方案,能够提升语音交互的响应速度。能够提升语音交互的响应速度。能够提升语音交互的响应速度。

【技术实现步骤摘要】
语音处理方法及相关装置、电子设备、存储介质


[0001]本申请涉及语音处理
,特别是涉及一种语音处理方法及相关装置、电子设备、存储介质。

技术介绍

[0002]随着信息技术的发展,智能语音技术已经在诸如智能家居、移动设备、车载设备等各种领域得到全面普及。在语音交互中,交互响应速度是用户体验的关键指标。
[0003]目前行业内,语音交互的普遍链路流程可以表示为:录音

后端点检测

识别

理解

反馈,即在录音过程中,若后端点检测的检测结果为当前已经不短于固定时长未输入语音,则可以判定说话人停止说话,此时即可执行后续识别、理解并反馈的过程。因此,对于说话人来说,在交互过程中,需要等待固定时长以及语音识别、理解等处理所需时长,交互响应速度较慢,从而影响用户体验。有鉴于此,如何提升语音交互的响应速度成为亟待解决的问题。

技术实现思路

[0004]本申请主要解决的技术问题是提供一种语音处理方法及相关装置、电子设备、存储介质,能够提升语音交互的响应速度。
[0005]为了解决上述技术问题,本申请第一方面提供了一种语音处理方法,包括:S1:在语音采集的过程中,获取持续至当前时刻的空白语音的语音时长,并判断语音时长是否不小于首个检测时长;其中,用于检测语音输入是否停止的门限时长扩展为串行排列的多个检测时长,且各检测时长均不大于门限时长;S2:响应于语音时长不小于首个检测时长,基于截止至当前时刻采集到的有效语音,获取语音处理结果,并基于空白语音的端点时刻,确定参考时刻;S3:将最新使用的检测时长的下一检测时长,作为参考时长,并判断从参考时刻开始持续采集参考时长的参考语音是否仍空白;S4.1:若否,则舍弃语音处理结果,并基于语音采集的当前进度,重新执行S1至S3;S4.2:若是且尚有未使用的检测时长,则基于最新采集的参考语音的端点时刻,更新参考时刻,并重新执行S3;S4.3:若是且所有检测时长均已使用,则将最新获取的语音处理结果置为有效。
[0006]为了解决上述技术问题,本申请第二方面提供了一种语音处理装置,包括:第一判断模块、语音处理模块、第二判断模块、第一循环模块、第二循环模块和确定模块,第一判断模块,用于执行S1:在语音采集的过程中,获取持续至当前时刻的空白语音的语音时长,并判断语音时长是否不小于首个检测时长;其中,用于检测语音输入是否停止的门限时长扩展得到串行排列的多个检测时长,且各检测时长均不大于门限时长;语音处理模块,用于执行S2:响应于语音时长不小于首个检测时长,基于截止至当前时刻采集到的有效语音,获取语音处理结果,并基于空白语音的端点时刻,确定参考时刻;第二判断模块,用于执行S3:将最新使用的检测时长的下一检测时长,作为参考时长,并判断从参考时刻开始持续采集参考时长的参考语音是否仍空白;第一循环模块,用于执行S4.1:在参考语音并非空白的情况
下,舍弃语音处理结果,并基于语音采集的当前进度,重新执行S1至S3;第二循环模块,用于执行S4.2:在参考语音空白且尚有未使用的检测时长的情况下,基于最新采集的参考语音的端点时刻,更新参考时刻,并重新执行S3;确定模块,用于执行S4.3:在参考语音空白且所有检测时长均已使用的情况下,将最新获取的语音处理结果置为有效。
[0007]为了解决上述技术问题,本申请第三方面提供了一种电子设备,包括相互耦接的存储器和处理器,存储器中存储有程序指令,处理器用于执行程序指令以实现上述第一方面的语音处理方法。
[0008]为了解决上述技术问题,本申请第四方面提供了一种计算机可读存储介质,存储有能够被处理器运行的程序指令,程序指令用于实现上述第一方面的语音处理方法。
[0009]上述方案,在语音采集过程中,获取持续至当前时刻的空白语音的语音时长,并判断语音时长是否不小于首个检测时长,且用于检测语音输入是否停止的门限时长不小于首个检测时长,各检测时长均不大于门限时长,响应于语音时长不小于首个检测时长,基于截止至当前时刻采集到的有效语音,获取语音处理结果,并基于空白语音的端点时刻,确定参考时刻。在此基础上,进一步将最新使用的检测时长的下一检测时长,作为参考时长,并判断从参考时刻开始持续采集参考时长的参考语音是否仍空白,若否则舍弃语音处理结果,并基于语音采集的当前进度,重新执行获取持续至当前时刻的空白语音的语音时长的步骤,若是且尚有未使用的检测时长,则基于最新采集的参考语音的端点时刻,更新参考时刻,并重新执行将最新使用的检测时长的下一检测时长,作为参考时长的步骤以及后续步骤,若是且所有检测时长均已使用,则将最新获取的语音处理结果置为有效,故通过将用于检测语音输入是否停止的门限时长扩展为串行排列的多个检测时长,且各检测时长均不大于门限时长,从而将使用门限时长判定语音输入是否停止的单阶段检测,转化为使用多个检测时长判定语音输入是否停止的多阶段检测,且在首个检测阶段之后即预先获取语音处理结果,进而后续只要中途阶段检测为不空白就基于语音采集的当前进度从首个阶段重新开始检测,而若后续各个阶段均检测为空白,直接将最新获取到的语音处理结果置为有效,在此基础上无需等待即可响应。故此,能够提升语音交互的响应速度。
附图说明
[0010]图1是本申请语音处理方法一实施例的流程示意图;图2是本申请语音处理方法一实施例的框架示意图;图3是本申请语音处理方法另一实施例的框架示意图;图4a是单端点检测一实施例的示意图;图4b是两端点检测一实施例的示意图;图4c是多端点检测一实施例的示意图;图5是本申请语音处理装置一实施例的框架示意图;图6是本申请电子设备一实施例的框架示意图;图7是本申请计算机可读存储介质一实施例的框架示意图。
具体实施方式
[0011]下面结合说明书附图,对本申请实施例的方案进行详细说明。
[0012]以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、接口、技术之类的具体细节,以便透彻理解本申请。
[0013]本文中术语“系统”和“网络”在本文中常被可互换使用。本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。此外,本文中的“多”表示两个或者多于两个。
[0014]请参阅图1,图1是本申请语音处理方法一实施例的流程示意图。具体而言,可以包括如下步骤:步骤S101:在语音采集的过程中,获取持续至当前时刻的空白语音的语音时长,并判断语音时长是否不小于首个检测时长,若否,则执行步骤S102,若是执行步骤S103。
[0015]本公开实施例中,用于检测语音输入是否停止的门限时长扩展为串行排列的多个检测时长,且各检测时长均不大于门限时长。需要说明的是,串行排列的多个检测时长可以为两个检测时长,也可以为三个检测时长,还可以为三个以上的检测时长,在此不做限定。
...

【技术保护点】

【技术特征摘要】
1.一种语音处理方法,其特征在于,包括:S1:在语音采集的过程中,获取持续至当前时刻的空白语音的语音时长,并判断所述语音时长是否不小于首个检测时长;其中,用于检测语音输入是否停止的门限时长扩展为串行排列的多个检测时长,且各所述检测时长均不大于所述门限时长;S2:响应于所述语音时长不小于首个检测时长,基于截止至所述当前时刻采集到的有效语音,获取语音处理结果,并基于所述空白语音的端点时刻,确定参考时刻;S3:将最新使用的检测时长的下一所述检测时长,作为参考时长,并判断从所述参考时刻开始持续采集所述参考时长的参考语音是否仍空白;S4.1:若否,则舍弃所述语音处理结果,并基于所述语音采集的当前进度,重新执行S1至S3;S4.2:若是且尚有未使用的检测时长,则基于最新采集的参考语音的端点时刻,更新所述参考时刻,并重新执行S3;S4.3:若是且所有所述检测时长均已使用,则将最新获取的语音处理结果置为有效。2.根据权利要求1所述的方法,其特征在于,所述多个检测时长之和等于所述门限时长;或者,最大所述检测时长等于所述门限时长,所述多个检测时长互不相同,并按照由小到大的顺序排列。3.根据权利要求1或2所述的方法,其特征在于,在所述多个检测时长之和等于所述门限时长的情况下,所述端点时刻为末端时刻;和/或,在最大所述检测时长等于所述门限时长的情况下,所述端点时刻为首端时刻。4.根据权利要求3所述的方法,其特征在于,在所述多个检测时长之和等于所述门限时长的情况下,所述基于所述空白语音的端点时刻,确定参考时刻,包括:将所述空白语音的末端时刻,确定为参考时刻;所述基于最新采集的参考语音的端点时刻,更新所述参考时刻,包括:将最新采集的参考语音的末端时刻,作为更新后的参考时刻。5.根据权利要求3所述的方法,其特征在于,在最大所述检测时长等于所述门限时长的情况下,所述基于所述空白语音的端点时刻,确定参考时刻,包括:将所述空白语音的首端时刻,确定为参考时刻;所述基于最新采集的参考语音的端点时刻,更新所述参考时刻,包括:将最新采集的参考语音的首端时刻,作为更新后的参考时刻。6.根据权利要求1所述的方法,其特征在于,所述方法还包括:响应于所述语音时长小于首个检测时长,基于所述语音采集的当前进度,重新执行S1以及后续步骤。7.根据权利要求1所述的方法,其特征在于,在所述将最新获取的语音处理结果置为有效之后,所述方法还包括:响应于最新获取的语音处理结果满足预设条件,基于最新获取的语音处理结果,与说话人进行交互;或者,响应于最新获取的语音处理结果不满足预设条件,拒绝与说话人进行交互。8.根据权利要求7所述的方法,其特征在于,所述语音处理结果包括识别文本;所述基
于最新获取的语音处理结果,与说话人进行交互,包括:向所述说话人展示所述识别文本;或者,所述语音处理结果包括语音意图;所述基于最新获取的语音处理结果,与...

【专利技术属性】
技术研发人员:肖建辉邢猛高万军陈志刚王飞胡尹
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1