一种语音的密集分类方法及相关装置制造方法及图纸

技术编号:22886078 阅读:32 留言:0更新日期:2019-12-21 08:03
本发明专利技术公开了一种语音的密集分类方法及相关装置,该方法包括:获取输入语音;提取所述输入语音中第一预设数量维度第一特征;将所述第一预设数量维度第一特征进行扩维,得到第二预设数量维度目标特征;将所述第二预设数量维度目标特征在全卷积网络中进行处理,得到所述输入语音的分类结果。上述的分类方法中,将所述输入语音作为整体进行分析,不存在重复,提高了感受野,进而提高了分类能力。

A speech intensive classification method and related devices

【技术实现步骤摘要】
一种语音的密集分类方法及相关装置
本专利技术涉及语音识别
,尤其涉及一种语音的密集分类方法及相关装置。
技术介绍
在对语音进行分类过程中,首先将输入语音进行分帧,然后对每一帧进行分类,以基于神经网络进行分类为例,为了得到当前帧的类别,可以将当前帧周围的若干帧作为当前帧的上下文进行训练。例如对于当前帧使用前后25帧的上下文作为输入窗口,每次滑动输入窗口给神经网络训练,得到当前帧的分类结果。专利技术人对现有的分类过程进行研究发现,所需要的存储空间随输入窗口的步长和大小以及输入语音的长度等急剧上升,此外,由于相邻帧所具有的上下文基本是重复的,会带来计算的冗余,并且上下文的大小限制了感受野的大小进而限制了分类能力。
技术实现思路
有鉴于此,本专利技术提供了一种语音的密集分类方法及相关装置,用以解决现有的分类过程中,所需要的存储空间是随输入窗口的步长和大小以及输入语音的长度等急剧上升的,此外,由于相邻帧所具有的上下文基本是重复的,会带来计算的冗余,并且上下文的大小限制了感受野的大小进而限制了分类能力的问题。具体方案如下:一种语音的密集分类方法,包括:获取输入语音;提取所述输入语音中第一预设数量维度第一特征;将所述第一预设数量维度第一特征进行扩维,得到第二预设数量维度目标特征;将所述第二预设数量维度目标特征在全卷积网络中进行处理,得到所述输入语音的分类结果。上述的方法,可选的,将所述第二预设数量维度目标特征在全卷积网络中进行处理,得到所述输入语音的分类结果,包括:设定池化核、步长和扩张率,其中,所述池化核和所述步长相等;依据所述池化核、所述步长和所述扩张率对所述第二预设数量维度目标特征在全卷积网络中进行扩张卷积、批归一化、整流线性单元和池化操作,得到所述输入语音的分类结果。上述的方法,可选的,依据所述池化核、所述步长和所述扩张率对所述第二预设数量维度目标特征在全卷积网络中进行扩张卷积、批归一化、整流线性单元和池化操作,得到所述输入语音的分类结果,还包括:获取分类过程中的损失函数,依据所述损失函数采用反向传播算法进行梯度更新。上述的方法,可选的,将所述第二预设数量维度目标特征在全卷积网络中进行处理,得到所述输入语音的分类结果,还包括:依据所述分类结果对语音唤醒、语音活动检测或者语音识别进行分析。上述的方法,可选的,其特征在于,提取所述输入语音中第一预设数量维度第一特征,包括:将所述输入语音划分为第三预设数量的帧;将所述第三预设数量的帧进行预加重、加窗和傅里叶变换处理后,得到能量谱;将所述能量谱进行滤波后得到所述第一预设数量维度第一特征。上述的方法,可选的,将所述第一预设数量维度第一特征进行扩维,得到第二预设数量维度目标特征,包括:将所述第一预设数量维度第一特征进行一阶差分处理得到第一预设数量维度第二特征;将所述第一预设数量维度第二特征进行二阶差分处理得到第一预设数量维度第三特征;其中,所述第一预设数量维度第一特征、所述第一预设数量维度第二特征和所述第一预设数量维度第三特征组成第二预设数量维度目标特征。一种语音的密集分类装置,包括:获取模块,用于获取输入语音;提取模块,用于提取所述输入语音中第一预设数量维度第一特征;扩充模块,用于将所述第一预设数量维度第一特征进行扩维,得到第二预设数量维度目标特征;分类模块,用于将所述第二预设数量维度目标特征在全卷积网络中进行处理,得到所述输入语音的分类结果。上述的装置,可选的,所述分类模块包括:设定单元,用于设定池化核、步长和扩张率,其中,所述池化核和所述步长相等;分类处理单元,用于依据所述池化核、所述步长和所述扩张率对所述第二预设数量维度目标特征在全卷积网络中进行扩张卷积、批归一化、整流线性单元和池化操作,得到所述输入语音的分类结果。一种存储介质,所述存储介质包括存储的程序,其中,所述程序执行上述的一种语音的密集分类方法。一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述的一种语音的密集分类方法。与现有技术相比,本专利技术包括以下优点:本专利技术公开了一种语音的密集分类方法及相关装置,该方法包括:获取输入语音;提取所述输入语音中第一预设数量维度第一特征;将所述第一预设数量维度第一特征进行扩维,得到第二预设数量维度目标特征;将所述第二预设数量维度目标特征在全卷积网络中进行处理,得到所述输入语音的分类结果。上述的分类方法中,将所述输入语音作为整体进行分析,不存在重复,提高了感受野,进而提高了分类能力。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本申请实施例公开的一种语音的密集分类方法流程图;图2为本申请实施例公开的一种全卷积网络的结构示意图;图3为本申请实施例公开的一种语音的密集分类装置结构框图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本专利技术。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本专利技术的精神或范围的情况下,在其它实施例中实现。因此,本专利技术将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。本专利技术公开了一种语音的密集分类方法及相关装置,应用在智能设备终端通过对输入语音进行分类,确定所述输入语音所属的类别,其中,所述分类方法可以应用在语音活动检测VAD(VoiceActivityDetection)、自动语音识别ASR(AutomaticSpeechRecognition)和语音唤醒KWS(keywordspotting)等分类过程中,所述分类方法的执行流程如图1所示,包括步骤:S101、获取输入语音;本专利技术实施例中,通过智能设备终端获取输入语音,其中,所述智能设备终端可以为智能音箱,智能机器人等可以进行语音分类的智能终端设备,其中,所述输入语音是一段语音且所述输入语音的帧长在10ms-30ms内是短时平稳的。S102、提取所述输入语音中第一预设数量维度第一特征;本专利技术实施例中,对所述输入语音进行分帧,由于所述输入语音帧长在10ms-30ms内是短时平稳的,超过这个时长就不是短时平稳信号了,而且帧移一般选取为帧长的一半,因此,本文档来自技高网...

【技术保护点】
1.一种语音的密集分类方法,其特征在于,包括:/n获取输入语音;/n提取所述输入语音中第一预设数量维度第一特征;/n将所述第一预设数量维度第一特征进行扩维,得到第二预设数量维度目标特征;/n将所述第二预设数量维度目标特征在全卷积网络中进行处理,得到所述输入语音的分类结果。/n

【技术特征摘要】
1.一种语音的密集分类方法,其特征在于,包括:
获取输入语音;
提取所述输入语音中第一预设数量维度第一特征;
将所述第一预设数量维度第一特征进行扩维,得到第二预设数量维度目标特征;
将所述第二预设数量维度目标特征在全卷积网络中进行处理,得到所述输入语音的分类结果。


2.根据权利要求1所述的方法,其特征在于,将所述第二预设数量维度目标特征在全卷积网络中进行处理,得到所述输入语音的分类结果,包括:
设定池化核、步长和扩张率,其中,所述池化核和所述步长相等;
依据所述池化核、所述步长和所述扩张率对所述第二预设数量维度目标特征在全卷积网络中进行扩张卷积、批归一化、整流线性单元和池化操作,得到所述输入语音的分类结果。


3.根据权利要求2所述的方法,其特征在于,依据所述池化核、所述步长和所述扩张率对所述第二预设数量维度目标特征在全卷积网络中进行扩张卷积、批归一化、整流线性单元和池化操作,得到所述输入语音的分类结果,还包括:
获取分类过程中的损失函数,依据所述损失函数采用反向传播算法进行梯度更新。


4.根据权利要求1所述的方法,其特征在于,将所述第二预设数量维度目标特征在全卷积网络中进行处理,得到所述输入语音的分类结果,还包括:
依据所述分类结果对语音唤醒、语音活动检测或者语音识别进行分析。


5.根据权利要求1所述的方法,其特征在于,提取所述输入语音中第一预设数量维度第一特征,包括:
将所述输入语音划分为第三预设数量的帧;
将所述第三预设数量的帧进行预加重、加窗和傅里叶变换处理后,得到能量谱;
将所述能量谱进行滤波后得到所述第...

【专利技术属性】
技术研发人员:陈孝良王超冯大航常乐
申请(专利权)人:北京声智科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1