用于确定语音结束点的方法、装置和计算机存储介质制造方法及图纸

技术编号:23485601 阅读:25 留言:0更新日期:2020-03-10 12:52
本发明专利技术涉及语音识别技术,特别涉及用于确定语音结束点的方法、装置和计算机存储介质。按照本发明专利技术一个方面的用于确定语音结束点的方法包含下列步骤:a)对语音信号进行监测以确定是否进入停顿状态;b)响应于停顿状态的进入,基于从该停顿状态之前的语音信号所确定的语义内容得到相应的延迟时长;以及c)如果在自该停顿状态起的延迟时长内未进入话音状态,则将该延迟时长结束的时刻确定为语音结束点。

Method, device and computer storage medium for determining the end point of speech

【技术实现步骤摘要】
用于确定语音结束点的方法、装置和计算机存储介质
本专利技术涉及语音识别技术,特别涉及用于确定语音结束点的技术。
技术介绍
人们在讲话时通常会出现偶尔的停顿。导致这种停顿的原因是多方面,例如讲话者思维暂时停滞,主观上希望形成停顿,以及受其它突发性事件干扰等。因而讲话中的停顿一般是以随机方式出现的,并且停顿的性质(暂时性和永久性)无法即时确定。在典型的人机语音交互场景中,人机交互装置需要对语音信号进行处理(例如自动语音识别(ASR)和自然语言处理(NLU)),并在此基础上执行相应的操作。但是停顿的上述特性给信号处理造成困难,特别是在语音结束点的判断上。因此能够准确地判断语音结束点的技术方案是迫切需要的。
技术实现思路
本专利技术的一个目的是提供一种用于确定语音结束点的方法和装置,其能够提高对语音结束点的识别准确度。按照本专利技术一个方面的用于确定语音结束点的方法包含下列步骤:a)对语音信号进行监测以确定是否进入停顿状态;b)响应于停顿状态的进入,基于从该停顿状态之前的语音信号所确定的语义内容得到相应的延迟时长;以及c)如果在自该停顿状态起的延迟时长内未进入话音状态,则将该延迟时长结束的时刻确定为语音结束点。优选地,在上述方法中,步骤a)包括下列步骤:a1)检测语音信号中是否出现非话音帧;a2)响应于非话音帧的出现,如果在自该非话音帧起的一个预设时长内未出现话音帧,则确定进入停顿状态。优选地,在上述方法中,步骤a1)包括下步骤:a11)提取一个语音信号帧的特征向量;a12)利用神经网络模型,由步骤a11)所提取的特征向量得到相关联的语音信号帧的评分;以及a13)通过将步骤a12所得到的评分与第一预设阈值进行比较来判断该语音信号帧是否为非话音帧。优选地,在上述方法中,在步骤a2)中,按照下列方式来确定是否出现话音帧:a21)提取非话音帧之后的其中一个语音信号帧的特征向量;a22)利用神经网络模型,由步骤a21)所提取的向量特征确定相关联的语音信号帧的评分;以及a23)通过将步骤a22)所确定的评分与第二预设阈值进行比较来判断相关联的语音信号帧是否为话音帧。优选地,在上述方法中,步骤b)包括下列步骤:对所述停顿状态之前的语音信号执行自动语音识别处理和自然语言理解处理以得到语义内容;由语义内容确定用户的意图;以及获得与所确定的意图相对应的延迟时长。优选地,在上述方法中,所述用户的意图按照对车载设备的操作类型分类。按照本专利技术另一个方面的用于确定语音结束点的装置包含:第一模块,用于对语音信号进行监测以确定是否进入停顿状态;第二模块,用于响应于停顿状态的进入,基于从该停顿状态之前的语音信号所确定的语义内容得到相应的延迟时长;以及第三模块,用于如果在自该停顿状态起的延迟时长内未进入话音状态,则将该延迟时长结束的时刻确定为语音结束点。按照本专利技术另一个方面的用于确定语音结束点的装置包含存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其执行所述程序以实现如上所述的方法。按照本专利技术还有一个方面的计算机可读存储介质,其上存储计算机程序,其中,该程序被处理器执行时实现如上所述的方法。按照本专利技术的一个或多个实施例,延迟时长取决于停顿之前的语音信号的语义内容,使得延迟时长的设置能够更为合理、准确表征停顿的性质,从而提高语音结束点的判断准确度,降低人机交互时的静音冗余,并且提高语音识别效率。此外,通过将用户的意图按照对车载设备的操作类型分类,有利于系统的维护和扩充(例如在为车载系统增加新的操作命令时)。附图说明本专利技术的上述和/或其它方面和优点将通过以下结合附图的各个方面的描述变得更加清晰和更容易理解,附图中相同或相似的单元采用相同的标号表示。附图包括:图1示出了神经网络模型的示例性训练过程。图2为按照本专利技术一个或多个实施例的用于确定语音结束点的方法。图3示例性地示出一个判断停顿状态的例程。图4示例性地示出一个判断进入停顿状态后的延迟时长内是否进入话音状态的例程。图5示出可用于确定停顿状态的有限状态机模型。图6为按照本专利技术一个或多个实施例的用于确定语音结束点的装置的示意框图。图7为按照本专利技术一个或多个实施例的用于确定语音结束点的装置的示意框图。具体实施方式下面参照其中图示了本专利技术示意性实施例的附图更为全面地说明本专利技术。但本专利技术可以按不同形式来实现,而不应解读为仅限于本文给出的各实施例。给出的上述各实施例旨在使本文的披露全面完整,以将本专利技术的保护范围更为全面地传达给本领域技术人员。在本说明书中,诸如“包含”和“包括”之类的用语表示除了具有在说明书和权利要求书中有直接和明确表述的单元和步骤以外,本专利技术的技术方案也不排除具有未被直接或明确表述的其它单元和步骤的情形。诸如“第一”和“第二”之类的用语并不表示单元在时间、空间、大小等方面的顺序而仅仅是作区分各单元之用。按照本专利技术的一个或多个实施例,将语音信号帧划分为非话音帧和话音帧两种类型,其中,话音帧指的是被语音处理装置识别为包含话音的语音信号帧或较大概率包含话音的语音信号帧,话音帧指的是被语音处理装置识别为不包含话音的语音信号帧或较大概率不包含话音的语音信号帧。在本专利技术的一个或多个实施例中,语音信号通常经A/D转换后形成连续的语音信号帧,可以基于每个语音信号帧的特征向量来确定其属于话音帧或非话音帧的概率或评分。示例性地,语音信号帧的特征向量被送至DNN模型中,经过前向计算得到二分类后验概率或评分。用于判断话音帧和非话音帧的神经网络模型例如可以是深度神经网络模型。图1示出了上述神经网络模型的示例性训练过程。如图1所示,首先确定训练集或训练样本。随后从训练样本分别提取fbank特征和MFCC特征,其中提取的fbank特征作为深度神经网络(DNN)模型的输入特征,而提取的MFCC特征经过GMM-HMM模型训练得到相应的标注文件,该标注文件则作为DNN模型的标注输入。接着,利用包含fbank特征的特征文件feats和标注文件fa对DNN模型进行训练直至收敛,从而得到通用DNN模型。按照本专利技术的一个或多个实施例,利用与话音帧相关联的事件来确定话音状态。例如,示例性地,当检测到语音信号中出现话音帧时,则确定进入话音状态。按照本专利技术的一个或多个实施例,利用与非话音帧相关联的事件来确定停顿状态。例如,示例性地,当检测到语音信号中出现非话音帧时,可以继续监测语音信号,并且如果在自非话音帧起的一个预设时长内未出现话音帧,则确定进入停顿状态。需要指出的是,停顿状态的起始时点可以是首个非话音帧的起始或结束时点,也可以是自首个非话音帧起的预设时长的结束时点。按照本专利技术的一个或多个实施例,如果在自停顿状态起的延迟时长内未进入话音状态,则将该延迟时长结束的时本文档来自技高网...

【技术保护点】
1.一种用于确定语音结束点的方法,其特征在于,包含下列步骤:/na)对语音信号进行监测以确定是否进入停顿状态;/nb)响应于停顿状态的进入,基于从该停顿状态之前的语音信号所确定的语义内容得到相应的延迟时长;以及/nc)如果在自该停顿状态起的延迟时长内未进入话音状态,则将该延迟时长结束的时刻确定为语音结束点。/n

【技术特征摘要】
1.一种用于确定语音结束点的方法,其特征在于,包含下列步骤:
a)对语音信号进行监测以确定是否进入停顿状态;
b)响应于停顿状态的进入,基于从该停顿状态之前的语音信号所确定的语义内容得到相应的延迟时长;以及
c)如果在自该停顿状态起的延迟时长内未进入话音状态,则将该延迟时长结束的时刻确定为语音结束点。


2.如权利要求1所述的方法,其中,步骤a)包括下列步骤:
a1)检测语音信号中是否出现非话音帧;
a2)响应于非话音帧的出现,如果在自该非话音帧起的一个预设时长内未出现话音帧,则确定进入停顿状态。


3.如权利要求2所述的方法,其中,步骤a1)包括下步骤:
a11)提取一个语音信号帧的特征向量;
a12)利用神经网络模型,由步骤a11)所提取的特征向量得到相关联的语音信号帧的评分;以及
a13)通过将步骤a12所得到的评分与第一预设阈值进行比较来判断该语音信号帧是否为非话音帧。


4.如权利要求3所述的方法,其中,在步骤a2)中,按照下列方式来确定是否出现话音帧:
a21)提取非话音帧之后的其中一个语音信号帧的特征向量;
a22)利用神经网络模型,由步骤a21)所提取的向量特征确定相关联的语音信号帧的评分;以及
a23)通过将步骤a22)所确定的评分与第二预设阈值进行比较来判断相关联的语音信号帧是否为话音帧。


5.如权利要求1所述的方法,其中,步骤b)包括下列步骤:
对所述停顿状态之前的语音信号执行自动语音识别处理和自然语言理解处理以得到语义内容;
由语义内容确定用户的意图;以及
获得与所确定的意图相对应的延迟时长。


6.如权利要求5所述的方法,其中,所述用户的意图按照对车载设备的操作类型分类。


7.一种用于确定语音结束点的装置,其包含存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,执行所述程序以执行下列步骤:
a)对语音信号进行监测以确定是否进入停顿状态;
b)响应于停顿状态的进入,基于从该停顿状态之前的语音信号所确定的语义内容得到相应的延迟时长;以及
c)如果在自该停顿状态起的延迟时长内未进入话音状态,则将...

【专利技术属性】
技术研发人员:孙珏徐曼
申请(专利权)人:蔚来汽车有限公司
类型:发明
国别省市:中国香港;81

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1