用于确定语音结束点的方法、装置和计算机存储介质制造方法及图纸

技术编号：23485601 阅读：25 留言：0更新日期：2020-03-10 12:52

本发明专利技术涉及语音识别技术，特别涉及用于确定语音结束点的方法、装置和计算机存储介质。按照本发明专利技术一个方面的用于确定语音结束点的方法包含下列步骤：a）对语音信号进行监测以确定是否进入停顿状态；b）响应于停顿状态的进入，基于从该停顿状态之前的语音信号所确定的语义内容得到相应的延迟时长；以及c）如果在自该停顿状态起的延迟时长内未进入话音状态，则将该延迟时长结束的时刻确定为语音结束点。

Method, device and computer storage medium for determining the end point of speech

全部详细技术资料下载

【技术实现步骤摘要】
用于确定语音结束点的方法、装置和计算机存储介质
本专利技术涉及语音识别技术，特别涉及用于确定语音结束点的技术。
技术介绍
人们在讲话时通常会出现偶尔的停顿。导致这种停顿的原因是多方面，例如讲话者思维暂时停滞，主观上希望形成停顿，以及受其它突发性事件干扰等。因而讲话中的停顿一般是以随机方式出现的，并且停顿的性质(暂时性和永久性)无法即时确定。在典型的人机语音交互场景中，人机交互装置需要对语音信号进行处理(例如自动语音识别(ASR)和自然语言处理(NLU))，并在此基础上执行相应的操作。但是停顿的上述特性给信号处理造成困难，特别是在语音结束点的判断上。因此能够准确地判断语音结束点的技术方案是迫切需要的。
技术实现思路
本专利技术的一个目的是提供一种用于确定语音结束点的方法和装置，其能够提高对语音结束点的识别准确度。按照本专利技术一个方面的用于确定语音结束点的方法包含下列步骤：a)对语音信号进行监测以确定是否进入停顿状态；b)响应于停顿状态的进入，基于从该停顿状态之前的语音信号所确定的语义内容得到相应的延迟时长；以及c)如果在自该停顿状态起的延迟时长内未进入话音状态，则将该延迟时长结束的时刻确定为语音结束点。优选地，在上述方法中，步骤a)包括下列步骤：a1)检测语音信号中是否出现非话音帧；a2)响应于非话音帧的出现，如果在自该非话音帧起的一个预设时长内未出现话音帧，则确定进入停顿状态。优选地，在上述方法中，步骤a1)包括下步...

【技术保护点】
1.一种用于确定语音结束点的方法，其特征在于，包含下列步骤：/na)对语音信号进行监测以确定是否进入停顿状态；/nb)响应于停顿状态的进入，基于从该停顿状态之前的语音信号所确定的语义内容得到相应的延迟时长；以及/nc)如果在自该停顿状态起的延迟时长内未进入话音状态，则将该延迟时长结束的时刻确定为语音结束点。/n

【技术特征摘要】
1.一种用于确定语音结束点的方法，其特征在于，包含下列步骤：
a)对语音信号进行监测以确定是否进入停顿状态；
b)响应于停顿状态的进入，基于从该停顿状态之前的语音信号所确定的语义内容得到相应的延迟时长；以及
c)如果在自该停顿状态起的延迟时长内未进入话音状态，则将该延迟时长结束的时刻确定为语音结束点。

2.如权利要求1所述的方法，其中，步骤a)包括下列步骤：
a1)检测语音信号中是否出现非话音帧；
a2)响应于非话音帧的出现，如果在自该非话音帧起的一个预设时长内未出现话音帧，则确定进入停顿状态。

3.如权利要求2所述的方法，其中，步骤a1)包括下步骤：
a11)提取一个语音信号帧的特征向量；
a12)利用神经网络模型，由步骤a11)所提取的特征向量得到相关联的语音信号帧的评分；以及
a13)通过将步骤a12所得到的评分与第一预设阈值进行比较来判断该语音信号帧是否为非话音帧。

4.如权利要求3所述的方法，其中，在步骤a2)中，按照下列方式来确定是否出现话音帧：
a21)提取非话音帧之后的其中一个语音信号帧的特征向量；
a22)利用神经网络模型，由步骤a21)所提取的向量特征确定相关联的语音信号帧的评分；以及
a23)通过将步骤a22)所确定的评分与第二预设阈值进行比较来判断相关联的语音信号帧是否为话音帧。

5.如权利要求1所述的方法，其中，步骤b)包括下列步骤：
对所述停顿状态之前的语音信号执行自动语音识别处理和自然语言理解处理以得到语义内容；
由语义内容确定用户的意图；以及
获得与所确定的意图相对应的延迟时长。

6.如权利要求5所述的方法，其中，所述用户的意图按照对车载设备的操作类型分类。

7.一种用于确定语音结束点的装置，其包含存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，执行所述程序以执行下列步骤：
a)对语音信号进行监测以确定是否进入停顿状态；
b)响应于停顿状态的进入，基于从该停顿状态之前的语音信号所确定的语义内容得到相应的延迟时长；以及
c)如果在自该停顿状态起的延迟时长内未进入话音状态，则将...

【专利技术属性】
技术研发人员：孙珏，徐曼，
申请(专利权)人：蔚来汽车有限公司，
类型：发明
国别省市：中国香港;81

全部详细技术资料下载我是这个专利的主人