语音状态判定方法、装置、终端及存储介质制造方法及图纸

技术编号:35454917 阅读:20 留言:0更新日期:2022-11-03 12:11
本申请提供语音状态判定方法、装置、终端及存储介质,包括:基于语音活动检测算法对待判定语音段进行语音状态判定;若判定语音状态为未开始说话且当前语音段未结束,则提取从判定有语音的语音帧开始到当前语音帧之间的语音帧集合;基于自动语音识别算法对所述语音帧集合进行语音状态再判定,以判定所述待判定语音段的语音状态是否确为未开始说话。本发明专利技术使用ASR识别结果作为VAD检测开始说话的兜底错误,规避了单一VAD的识别遗漏,从而提升了开始说话的判定准确率;基于大批量的人声语音统计数据,对VAD开始、结束说话判定进行策略优化,规避了纯概率预测的无针对性,使判定符合人发声特点提升了开始、结束说话判定的准确率。结束说话判定的准确率。结束说话判定的准确率。

【技术实现步骤摘要】
语音状态判定方法、装置、终端及存储介质


[0001]本申请涉及语音识别
,特别是涉及语音状态判定方法、装置、终端及存储介质。

技术介绍

[0002]随着数据处理技术的进步以及移动互联网的快速普及,计算机技术被广泛地运用到了社会的各个领域,随之而来的则是海量数据的产生。其中,语音数据受到了人们越来越多的重视,语音判定是一门交叉学科。近二十年来。语音判定技术取得显著进步,开始从实验室走向市场。人们预计,未来10年内,语音判定技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。
[0003]目前,语音开始、语音结束的判断都是依赖VAD技术判定的,VAD(Voice Activity Detection)是指语音活动检测,又称为语音端点检测或语音边界检测,目的是从声音信号流中判定并消除长时间的静音期,以达到在不降低业务质量的情况下节省话路资源的作用,静音抑制可以节省宝贵的带宽资源,可以有利于减少用户感觉到的端到端的时延。但是,单纯依赖VAD判定语音开始和语音结束的准确率偏低。

技术实现思路

[0004]鉴于以上所述现有技术的缺点,本申请的目的在于提供,用于解决现有技术中单纯依赖VAD判定语音开始和语音结束的准确率偏低的问题。
[0005]为实现上述目的及其他相关目的,本申请的第一方面提供一种语音状态判定方法,包括:基于语音活动检测算法对待判定语音段进行语音状态判定;若判定语音状态为未开始说话且当前语音段未结束,则提取从判定有语音的语音帧开始到当前语音帧之间的语音帧集合;基于自动语音识别算法对所述语音帧集合进行语音状态再判定,以判定所述待判定语音段的语音状态是否确为未开始说话。
[0006]于本申请的第一方面的一些实施例中,所述基于自动语音识别算法对所述语音帧集合进行语音状态再判定,包括:若所述自动语音识别算法对所述语音帧结合的识别结果中的字符数量大于零,则判定语音状态为开始说话,否则判定语音状态确为未开始说话。
[0007]于本申请的第一方面的一些实施例中,还包括:若基于语音活动检测算法判定所述待判定语音段的语音状态为开始说话,则直接确定语音状态为开始说话。
[0008]于本申请的第一方面的一些实施例中,所述基于语音活动检测算法判定所述待判定语音段的语音状态为开始说话的过程包括:将最先被判定为有语音的语音帧设定为持续计时起始帧,若从所述持续计时起始帧起算的语音持续时间满足标准持续时长,则判定所述待判定语音段的语音状态为开始说话。
[0009]于本申请的第一方面的一些实施例中,所述基于语音活动检测算法判定所述待判定语音段的语音状态为开始说话的过程还包括:将最先被判定为有语音的语音帧设定为持续计时起始帧,舍弃从所述持续计时起始帧起算的语音持续时间不满足标准尾部误判时长
的语音帧段,并依序寻找新的持续计时起始帧,以重新进行开始说话判定。
[0010]于本申请的第一方面的一些实施例中,还包括结束说话判定;所述结束说话判定的方式包括:根据从停顿计时起始帧起算的停顿时间与标准停顿时长之间的关系以及停顿计时尾帧有无语音,判定所述待判定语音段的语音状态是否为结束说话。
[0011]于本申请的第一方面的一些实施例中,所述结束说话判定的过程包括:将最先被判定为无语音的语音帧设定为停顿计时起始帧,若从所述停顿计时起始帧起算的停顿持续时间达到标准停顿时长且尾帧无语音,则判定所述待判定语音段的语音状态为结束说话。
[0012]于本申请的第一方面的一些实施例中,所述结束说话判定的过程包括:将最先被判定为无语音的语音帧设定为停顿计时起始帧,舍弃在停顿计时范围内出现的语音持续时间不满足标准尾部误判时长的语音帧段;若从所述停顿计时起始帧起算的停顿持续时间达到标准停顿时长且尾帧无语音,则判定所述待判定语音段的语音状态为结束说话。
[0013]于本申请的第一方面的一些实施例中,所述结束说话判定的过程包括:将最先被判定为无语音的语音帧设定为停顿计时起始帧,并以所述停顿计时起始帧之后的第一个有语音的语音帧作为尾部误判计时起始帧,若语音持续时间满足标准尾部误判时长,则依序寻找下一个无语音的语音帧作为新的停顿计时起始帧,以重新开始停顿计时。
[0014]于本申请的第一方面的一些实施例中,所述结束说话判定的过程包括:将最先被判定为无语音的语音帧设定为停顿计时起始帧,若从所述停顿计时起始帧起算的停顿计时范围的尾帧有语音,则舍弃当前的停顿计时判定,并依序寻找新的停顿计时起始帧。
[0015]为实现上述目的及其他相关目的,本申请的第二方面提供一种语音状态判定装置,包括:初判定模块,用于基于语音活动检测算法对待判定语音段进行语音状态判定;再判定模块,用于若判定语音状态为未开始说话且当前语音段未结束,则提取从判定有语音的语音帧开始到当前语音帧之间的语音帧集合;基于自动语音识别算法对所述语音帧集合进行语音状态再判定,以判定所述待判定语音段的语音状态是否确为未开始说话。
[0016]为实现上述目的及其他相关目的,本申请的第三方面提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述语音状态判定方法。
[0017]为实现上述目的及其他相关目的,本申请的第四方面提供一种电子终端,包括:处理器及存储器;所述存储器用于存储计算机程序,所述处理器用于执行所述存储器存储的计算机程序,以使所述终端执行所述语音状态判定方法。
[0018]如上所述,本申请的语音状态判定方法、装置、终端及存储介质,具有以下有益效果:
[0019](1)使用ASR识别结果作为VAD检测开始说话的兜底错误,规避了单一VAD的识别遗漏,从而提升了开始说话的判定准确率。
[0020](2)基于大批量的人声语音统计数据,对VAD开始、结束说话判定进行策略优化,规避了纯概率预测的无针对性,使判定符合人发声特点提升了开始、结束说话判定的准确率。
附图说明
[0021]图1显示为本申请一实施例中的一种语音状态判定方法的流程示意图。
[0022]图2显示为本申请一实施例中的一种语音状态判定方法的流程示意图。
[0023]图3A显示为本申请一实施例中使用VAD算法判定开始说话的场景示意图。
[0024]图3B显示为本申请一实施例中使用VAD算法判定开始说话的场景示意图。
[0025]图4A显示为本申请一实施例中判定结束说话的场景示意图。
[0026]图4B显示为本申请一实施例中判定结束说话的场景示意图。
[0027]图4C显示为本申请一实施例中判定结束说话的场景示意图。
[0028]图4D显示为本申请一实施例中判定结束说话的场景示意图。
[0029]图5显示为本申请一实施例中语音状态判定终端的结构示意图。
[0030]图6显示为本申请一实施例中语音状态判定装置的结构示意图。
具体实施方式
[0031]以下通过特定的具体实例说明本申请的实施方式,本领域本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音状态判定方法,其特征在于,包括:基于语音活动检测算法对待判定语音段进行语音状态判定;若判定语音状态为未开始说话且当前语音段未结束,则提取从判定有语音的语音帧开始到当前语音帧之间的语音帧集合;基于自动语音识别算法对所述语音帧集合进行语音状态再判定,以判定所述待判定语音段的语音状态是否确为未开始说话。2.根据权利要求1所述的语音状态判定方法,其特征在于,所述基于自动语音识别算法对所述语音帧集合进行语音状态再判定,包括:若所述自动语音识别算法对所述语音帧结合的识别结果中的字符数量大于零,则判定语音状态为开始说话,否则判定语音状态确为未开始说话。3.根据权利要求1所述的语音状态判定方法,其特征在于,还包括:若基于语音活动检测算法判定所述待判定语音段的语音状态为开始说话,则直接确定语音状态为开始说话。4.根据权利要求2所述的语音状态判定方法,其特征在于,所述基于语音活动检测算法判定所述待判定语音段的语音状态为开始说话的过程包括:将最先被判定为有语音的语音帧设定为持续计时起始帧,若从所述持续计时起始帧起算的语音持续时间满足标准持续时长,则判定所述待判定语音段的语音状态为开始说话。5.根据权利要求2所述的语音状态判定方法,其特征在于,所述基于语音活动检测算法判定所述待判定语音段的语音状态为开始说话的过程还包括:将最先被判定为有语音的语音帧设定为持续计时起始帧,舍弃从所述持续计时起始帧起算的语音持续时间不满足标准尾部误判时长的语音帧段,并依序寻找新的持续计时起始帧,以重新进行开始说话判定。6.根据权利要求1所述的语音状态判定方法,其特征在于,还包括结束说话判定;所述结束说话判定的方式包括:根据从停顿计时起始帧起算的停顿时间与标准停顿时长之间的关系以及停顿计时尾帧有无语音,判定所述待判定语音段的语音状态是否为结束说话。7.根据权利要求6所述的语音状态判定方法,其特征在于,所述结束说话判定的过程包括:将最先被判定为无语音的语音帧设定为停顿计时起始帧,若从所述停顿计时起...

【专利技术属性】
技术研发人员:裴新华
申请(专利权)人:上海湃舵智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1