一种语音信息的处理方法、装置、设备及介质制造方法及图纸

技术编号:24097306 阅读:31 留言:0更新日期:2020-05-09 11:02
本发明专利技术公开了一种语音信息的处理方法、装置、设备及介质,用以解决由于离线语音交互的操作过程繁琐导致的响应效率低的问题。由于本发明专利技术实施例通过将待处理的语音信息划分为多个第一语音帧,并提取每个第一语音帧对应的第一语音特征,只需要对待处理语音信息进行一次分帧及语音特征提取的步骤,即可通过预先训练完成的声学模型以及有限状态转换机,确定待处理的语音信息中的有效语音段对应的目标语音元素序列,既完成了语音信号的端点检测,又完成了离线语音识别,从而大大简化了智能设备在离线语音交互的操作步骤,节省了大量的时间,提高了智能设备的响应效率。

A processing method, device, equipment and medium of voice information

【技术实现步骤摘要】
一种语音信息的处理方法、装置、设备及介质
本专利技术涉及自然语言处理
,尤其涉及一种语音信息的处理方法、装置、设备及介质。
技术介绍
随着智能交互技术的迅猛发展,在物联网和智能家居领域中,可以通过离线语音交互实现多个指令词来控制智能交互设备完成多种任务,例如,控制智能空调的多种模式间的切换、温度调节、扫风控制等。其中,智能交互设备在进行离线语音交互的过程中,往往需要语音唤醒、语音活动检测(VoiceActivityDetection,VAD)和离线语音识别共同协作,才能完成上述相应的功能。现有技术中,智能设备采集到语音信息后,将该语音信息划分为多个语音帧,并通过梅尔倒谱系数(Mel-frequencycepstralcoefficients,MFCC)、滤波器组(FilterBank,FBank)等方法提取每个语音帧对应的语音特征。然后通过语音唤醒声学模型以及对应的有限状态转换机(FiniteStateTransducer,FST),确定该语音信息为唤醒语音信息后,才将在该语音信息之后采集到的语音信息作为待处理的语音信息进行后续的处理。具体的,将待处理的语音信息划分为多个语音帧,并通过MFCC、FBank等方法提取每个语音帧对应的语音特征。通过VAD声学模型,依次获取每个语音帧对应的概率,该概率为该语音帧为静音帧的概率,智能设备根据每个概率和VAD对应的FST确定出该待处理语音信息的每个语音帧是否为非静音帧,从而确定待处理的语音信息中有效语音段的起始端点和结束端点,提取出该待处理的语音信息中的有效语音段。提取出待处理的语音信息中的有效语音段后,智能设备再将该有效语音段划分为多个语音帧,并通过MFCC、FBank等方法提取每个语音帧对应的语音特征。通过离线语音识别模型以及离线语音识别对应的FST,确定出该有效语音段的语音元素序列。基于确定的语音元素序列,若智能设备确定待处理的语音信息中包含预设的指令词,则执行该指令词对应的操作。从上述的离线语音交互的过程上来看,智能设备需要针对每个模型,将每个模型输入的语音信息划分为多个语音帧,并提取每个语音帧对应的语音特征,然后通过不同的声学模型以及该声学模型对应的FST,确定对应的输出结果,语音信息的处理过程非常繁琐,浪费了大量的时间,极大地降低了智能设备的响应效率。
技术实现思路
本专利技术实施例提供了一种语音信息的处理方法、装置、设备及介质,用以解决由于离线语音交互的操作过程繁琐导致智能设备的响应效率低的问题。本专利技术实施例提供了一种语音信息的处理方法,所述方法包括:将待处理的语音信息划分为多个第一语音帧,并提取每个所述第一语音帧对应的第一语音特征;通过预先训练完成的声学模型,依次根据每个所述第一语音帧对应的第一语音特征,确定每个所述第一语音帧对应的第一输出向量,所述第一输出向量中包含对应的第一语音帧为静音帧的概率,以及该第一语音帧包含的内容信息为每种语音元素的概率;通过有限状态转换机,根据每个所述第一语音帧对应的第一输出向量,确定所述待处理的语音信息中的有效语音段对应的目标语音元素序列,所述有效语音段为确定出的所述待处理的语音信息中的起始端点和结束端点之间包含的第一语音帧。在一种可能的实施方式中,任意相邻的两个第一语音帧之间存在设定时长的重叠。在一种可能的实施方式中,所述声学模型通过如下方式训练:获取样本集中的任一语音信息样本,将所述语音信息样本划分为多个第二语音帧,并提取每个所述第二语音帧对应的第二语音特征,其中,每个所述第二语音帧的标签用于标识对应的第二语音帧为静音帧的第一标识值,或该第二语音帧包含的语音元素的第二标识值;通过神经网络模型,依次根据每个所述第二语音帧对应的第二语音特征,获得每个所述第二语音特征对应的第二输出向量,所述第二输出向量中包含对应的第二语音帧为静音帧的概率,以及该第二语音帧包含的内容信息为每种语音元素的概率;根据每个所述第二语音帧对应的第二输出向量以及所述第二语音帧对应的标签,对所述神经网络模型进行训练,得到所述声学模型。在一种可能的实施方式中,所述通过有限状态转换机,根据每个所述第一语音帧对应的第一输出向量,确定所述待处理的语音信息中有效语音段对应的目标语音元素序列,包括:通过有限状态转换机,根据每个所述第一语音帧对应的第一输出向量,确定每个所述第一语音帧为静音帧,或为非静音帧对应的目标语音元素;根据每个所述第一语音帧是否为静音帧,确定所述待处理的语音信息中的有效语音段;以及根据所述有效语音段包含的第一语音帧对应的目标语音元素,确定所述待处理的语音信息中有效语音段对应的目标语音元素序列。在一种可能的实施方式中,所述根据每个所述第一语音帧是否为静音帧,确定所述待处理的语音信息中的有效语音段,以及所述有效语音段中包含的第一语音帧包括:根据每个所述第一语音帧是否为静音帧,确定所述待处理的语音信息中的起始端点和结束端点;将所述待处理的语音信息中的所述起始端点和结束端点之间包含的第一语音帧,确定为有效语音段。在一种可能的实施方式中,所述根据每个所述第一语音帧是否为静音帧,确定所述待处理的语音信息中的起始端点和结束端点,包括:依次检测所述待处理的语音信息中的每个所述第一语音帧是否为静音帧,若检测到任一为静音帧的第一语音帧之后连续第一数量的第一语音帧均为非静音帧,则将该静音帧的终止点确定为所述待处理的语音信息中的起始端点;针对在所述起始端点之后每个所述第一语音帧,若检测到任一为非静音帧的第一语音帧之后连续第二数量的第一语音帧为静音帧,则将该非静音帧的终止点确定为所述待处理的语音信息中的结束端点。在一种可能的实施方式中,所述确定所述待处理的语音信息中有效语音段对应的目标语音元素序列之后,所述方法还包括:将所述目标语音元素序列分别与预先保存的每个指令语音元素序列进行匹配;若所述目标语音元素序列与任一指令语音元素序列匹配,则确定所述待处理的语音信息中包含该匹配的指令语音元素序列对应的指令词;以及确定所述指令词对应的操作,并执行所述操作。本专利技术实施例还提供了一种语音信息的处理装置,所述装置包括:预处理单元,用于将待处理的语音信息划分为多个第一语音帧,并提取每个所述第一语音帧对应的第一语音特征;第一确定单元,用于通过预先训练完成的声学模型,依次根据每个所述第一语音帧对应的第一语音特征,确定每个所述第一语音帧对应的第一输出向量,所述第一输出向量中包含对应的第一语音帧为静音帧的概率,以及该第一语音帧包含的内容信息为每种语音元素的概率;第二确定单元,用于通过有限状态转换机,根据每个所述第一语音帧对应的第一输出向量,确定所述待处理的语音信息中的有效语音段对应的目标语音元素序列,所述有效语音段为确定出的所述待处理的语音信息中的起始端点和结束端点之间包含的第一语音帧。在一种可能的实施方式中,所述声学模型通过如下方式训练:获取样本集本文档来自技高网
...

【技术保护点】
1.一种语音信息的处理方法,其特征在于,所述方法包括:/n将待处理的语音信息划分为多个第一语音帧,并提取每个所述第一语音帧对应的第一语音特征;/n通过预先训练完成的声学模型,依次根据每个所述第一语音帧对应的第一语音特征,确定每个所述第一语音帧对应的第一输出向量,所述第一输出向量中包含对应的第一语音帧为静音帧的概率,以及该第一语音帧包含的内容信息为每种语音元素的概率;/n通过有限状态转换机,根据每个所述第一语音帧对应的第一输出向量,确定所述待处理的语音信息中的有效语音段对应的目标语音元素序列,所述有效语音段为确定出的所述待处理的语音信息中的起始端点和结束端点之间包含的第一语音帧。/n

【技术特征摘要】
1.一种语音信息的处理方法,其特征在于,所述方法包括:
将待处理的语音信息划分为多个第一语音帧,并提取每个所述第一语音帧对应的第一语音特征;
通过预先训练完成的声学模型,依次根据每个所述第一语音帧对应的第一语音特征,确定每个所述第一语音帧对应的第一输出向量,所述第一输出向量中包含对应的第一语音帧为静音帧的概率,以及该第一语音帧包含的内容信息为每种语音元素的概率;
通过有限状态转换机,根据每个所述第一语音帧对应的第一输出向量,确定所述待处理的语音信息中的有效语音段对应的目标语音元素序列,所述有效语音段为确定出的所述待处理的语音信息中的起始端点和结束端点之间包含的第一语音帧。


2.根据权利要求1所述的方法,其特征在于,任意相邻的两个第一语音帧之间存在设定时长的重叠。


3.根据权利要求1所述的方法,其特征在于,所述声学模型通过如下方式训练:
获取样本集中的任一语音信息样本,将所述语音信息样本划分为多个第二语音帧,并提取每个所述第二语音帧对应的第二语音特征,其中,每个所述第二语音帧的标签用于标识对应的第二语音帧为静音帧的第一标识值,或该第二语音帧包含的语音元素的第二标识值;
通过神经网络模型,依次根据每个所述第二语音帧对应的第二语音特征,获得每个所述第二语音特征对应的第二输出向量,所述第二输出向量中包含对应的第二语音帧为静音帧的概率,以及该第二语音帧包含的内容信息为每种语音元素的概率;
根据每个所述第二语音帧对应的第二输出向量以及所述第二语音帧对应的标签,对所述神经网络模型进行训练,得到所述声学模型。


4.根据权利要求1所述的方法,其特征在于,所述通过有限状态转换机,根据每个所述第一语音帧对应的第一输出向量,确定所述待处理的语音信息中有效语音段对应的目标语音元素序列,包括:
通过有限状态转换机,根据每个所述第一语音帧对应的第一输出向量,确定每个所述第一语音帧为静音帧,或为非静音帧对应的目标语音元素;
根据每个所述第一语音帧是否为静音帧,确定所述待处理的语音信息中的有效语音段;以及
根据所述有效语音段包含的第一语音帧对应的目标语音元素,确定所述待处理的语音信息中有效语音段对应的目标语音元素序列。


5.根据权利要求4所述的方法,其特征在于,所述根据每个所述第一语音帧是否为静音帧,确定所述待处理的语音信息中的有效语音段,以及所述有效语音段中包含的第一语音帧包括:
根据每个所述第一语...

【专利技术属性】
技术研发人员:陈都吴本谷
申请(专利权)人:北京猎户星空科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1