语音状态判定方法、装置、终端及存储介质制造方法及图纸

技术编号：35454917 阅读：20 留言：0更新日期：2022-11-03 12:11

本申请提供语音状态判定方法、装置、终端及存储介质，包括：基于语音活动检测算法对待判定语音段进行语音状态判定；若判定语音状态为未开始说话且当前语音段未结束，则提取从判定有语音的语音帧开始到当前语音帧之间的语音帧集合；基于自动语音识别算法对所述语音帧集合进行语音状态再判定，以判定所述待判定语音段的语音状态是否确为未开始说话。本发明专利技术使用ASR识别结果作为VAD检测开始说话的兜底错误，规避了单一VAD的识别遗漏，从而提升了开始说话的判定准确率；基于大批量的人声语音统计数据，对VAD开始、结束说话判定进行策略优化，规避了纯概率预测的无针对性，使判定符合人发声特点提升了开始、结束说话判定的准确率。结束说话判定的准确率。结束说话判定的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
语音状态判定方法、装置、终端及存储介质

[0001]本申请涉及语音识别
，特别是涉及语音状态判定方法、装置、终端及存储介质。

技术介绍

[0002]随着数据处理技术的进步以及移动互联网的快速普及，计算机技术被广泛地运用到了社会的各个领域，随之而来的则是海量数据的产生。其中，语音数据受到了人们越来越多的重视，语音判定是一门交叉学科。近二十年来。语音判定技术取得显著进步，开始从实验室走向市场。人们预计，未来10年内，语音判定技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。
[0003]目前，语音开始、语音结束的判断都是依赖VAD技术判定的，VAD(Voice Activity Detection)是指语音活动检测，又称为语音端点检测或语音边界检测，目的是从声音信号流中判定并消除长时间的静音期，以达到在不降低业务质量的情况下节省话路资源的作用，静音抑制可以节省宝贵的带宽资源，可以有利于减少用户感觉到的端到端的时延。但是，单纯依赖VAD判定语音开始和语音结束的准确率偏低。

技术实现思路

[0004]鉴于以上所述现有技术的缺点，本申请的目的在于提供，用于解决现有技术中单纯依赖VAD判定语音开始和语音结束的准确率偏低的问题。
[0005]为实现上述目的及其他相关目的，本申请的第一方面提供一种语音状态判定方法，包括：基于语音活动检测算法对待判定语音段进行语音状态判定；若判定语音状态为未开始说话且当前语音段未结束，则提取从判定有语音的语音帧开始到当前语音帧之间的语音...

【技术保护点】

【技术特征摘要】
1.一种语音状态判定方法，其特征在于，包括：基于语音活动检测算法对待判定语音段进行语音状态判定；若判定语音状态为未开始说话且当前语音段未结束，则提取从判定有语音的语音帧开始到当前语音帧之间的语音帧集合；基于自动语音识别算法对所述语音帧集合进行语音状态再判定，以判定所述待判定语音段的语音状态是否确为未开始说话。2.根据权利要求1所述的语音状态判定方法，其特征在于，所述基于自动语音识别算法对所述语音帧集合进行语音状态再判定，包括：若所述自动语音识别算法对所述语音帧结合的识别结果中的字符数量大于零，则判定语音状态为开始说话，否则判定语音状态确为未开始说话。3.根据权利要求1所述的语音状态判定方法，其特征在于，还包括：若基于语音活动检测算法判定所述待判定语音段的语音状态为开始说话，则直接确定语音状态为开始说话。4.根据权利要求2所述的语音状态判定方法，其特征在于，所述基于语音活动检测算法判定所述待判定语音段的语音状态为开始说话的过程包括：将最先被判定为有语音的语音帧设定为持续计时起始帧，若从所述持续计时起始帧起算的语音持续时间满足标准持续时长，则判定所述待判定语音段的语音状态为开始说话。5.根据权利要求2所述的语音状态判定方法，其特征在于，所述基于语音活动检测算法判定所述待判定语音段的语音状态为开始说话的过程还包括：将最先被判定为有语音的语音帧设定为持续计时起始帧，舍弃从所述持续计时起始帧起算的语音持续时间不满足标准尾部误判时长的语音帧段，并依序寻找新的持续计时起始帧，以重新进行开始说话判定。6.根据权利要求1所述的语音状态判定方法，其特征在于，还包括结束说话判定；所述结束说话判定的方式包括：根据从停顿计时起始帧起算的停顿时间与标准停顿时长之间的关系以及停顿计时尾帧有无语音，判定所述待判定语音段的语音状态是否为结束说话。7.根据权利要求6所述的语音状态判定方法，其特征在于，所述结束说话判定的过程包括：将最先被判定为无语音的语音帧设定为停顿计时起始帧，若从所述停顿计时起...

【专利技术属性】
技术研发人员：裴新华，
申请(专利权)人：上海湃舵智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人