一种语音端点检测方法及装置制造方法及图纸

技术编号：26508344 阅读：40 留言：0更新日期：2020-11-27 15:36

本发明专利技术提供一种语音端点检测方法及装置，该方法包括：获取用户输入的语音数据；对所述语音数据进行语音识别，得到所述语音数据对应的文本；对所述文本进行整句检测，得到第一检测结果；在目标检测结果指示所述文本为整句的情况下，输出语音活性检测VAD结束信号，其中，所述目标检测结果包括所述第一检测结果。本发明专利技术实施例相比于现有基于语音能量的VAD检测方式，可在减少无声段的等待时间即缩短响应时间的基础上，进一步提高语音端点检测结果的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
一种语音端点检测方法及装置
本专利技术涉及语音处理
，尤其涉及一种语音端点检测方法及装置。
技术介绍
语音信号一般可分为无声段、清音段和浊音段，其中，无声段是背景噪声段，平均能量最低，浊音段为声带振动发出对应的语音信号段，平均能量最高，清音段是空气在口腔中的摩擦、冲击或爆破而发出的语音信号段，平均能量居于前两者之间。语音活动检测(VoiceActivityDetection，VAD)又称语音端点检测，语音边界检测，其目的是检测当前语音信号中是否包含话音信号存在，即对输入信号进行判断，将话音信号与各种背景噪声信号区分出来。目前VAD算法是基于语音能量特征来判定语音信号的结束(即VADend)，通常需要在“实际语音”结束后再检测一段“无声段”来确认语音是否已经结束，以避免语音发音各个文字之间的间隔或停顿导致VAD的误判结束，即实际语音尚未说完，则VAD误判为已经结束。而“无声段”时间通常为几百毫秒，这样就造成了一定的延迟：实际语音已经结束，但给出“判定语音结束”的结果延迟了几百毫秒，造成语音交互体验上可以明显感受到响应迟滞。现有技术中，为了优化VAD效果，减少响应时间，有采用情感向量作为是情感因素的衡量指标，依据情感因素来判断一句话是否结束的方案，但这种方案还是比较容易出现误判，即检测的准确性较低。
技术实现思路
本专利技术实施例提供一种语音端点检测方法及装置，以解决现有语音端点检测方式准确性较低的问题。为解决上述技术问题，本专利技术是这样实现的：...

【技术保护点】
1.一种语音端点检测方法，其特征在于，包括：/n获取用户输入的语音数据；/n对所述语音数据进行语音识别，得到所述语音数据对应的文本；/n对所述文本进行整句检测，得到第一检测结果；/n在目标检测结果指示所述文本为整句的情况下，输出语音活性检测VAD结束信号，其中，所述目标检测结果包括所述第一检测结果。/n

【技术特征摘要】
1.一种语音端点检测方法，其特征在于，包括：
获取用户输入的语音数据；
对所述语音数据进行语音识别，得到所述语音数据对应的文本；
对所述文本进行整句检测，得到第一检测结果；
在目标检测结果指示所述文本为整句的情况下，输出语音活性检测VAD结束信号，其中，所述目标检测结果包括所述第一检测结果。

2.根据权利要求1所述的方法，其特征在于，所述对所述文本进行整句检测，得到第一检测结果，包括：
将所述文本输入整句检测模型进行整句检测；
获取所述整句检测识别模型输出的第一检测结果。

3.根据权利要求2所述的方法，其特征在于，所述整句检测模型通过如下方式训练得到：
获取标定有语句结束位置的语句训练集；
利用所述语句训练集对循环神经网络进行训练，得到所述整句检测模型。

4.根据权利要求1所述的方法，其特征在于，所述在目标检测结果指示所述文本为整句的情况下，输出语音活性检测VAD结束信号之前，所述方法还包括：
对预设VAD算法进行目标调整，得到调整后的VAD优化算法，其中，所述目标调整包括移除或缩短所述预设VAD算法中的无声段的检测时间，和/或增加所述预设VAD算法的灵敏度阈值；
采用所述VAD优化算法对所述语音数据进行语音信号结束检测，得到第二检测结果；
所述目标检测结果包括所述第一检测结果和所述第二检测结果；所述在目标检测结果指示所述文本为整句的情况下，输出语音活性检测VAD结束信号，包括：
在所述第一检测结果指示所述文本为整句，且所述第二检测结果指示用户输入语音数据结束的情况下，输出VA...

【专利技术属性】
技术研发人员：韩启源，李智勇，常乐，
申请(专利权)人：北京声智科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人