一种语音的密集分类方法及相关装置制造方法及图纸

技术编号：22886078 阅读：32 留言：0更新日期：2019-12-21 08:03

本发明专利技术公开了一种语音的密集分类方法及相关装置，该方法包括：获取输入语音；提取所述输入语音中第一预设数量维度第一特征；将所述第一预设数量维度第一特征进行扩维，得到第二预设数量维度目标特征；将所述第二预设数量维度目标特征在全卷积网络中进行处理，得到所述输入语音的分类结果。上述的分类方法中，将所述输入语音作为整体进行分析，不存在重复，提高了感受野，进而提高了分类能力。

A speech intensive classification method and related devices

全部详细技术资料下载

【技术实现步骤摘要】
一种语音的密集分类方法及相关装置
本专利技术涉及语音识别
，尤其涉及一种语音的密集分类方法及相关装置。
技术介绍
在对语音进行分类过程中，首先将输入语音进行分帧，然后对每一帧进行分类，以基于神经网络进行分类为例，为了得到当前帧的类别，可以将当前帧周围的若干帧作为当前帧的上下文进行训练。例如对于当前帧使用前后25帧的上下文作为输入窗口，每次滑动输入窗口给神经网络训练，得到当前帧的分类结果。专利技术人对现有的分类过程进行研究发现，所需要的存储空间随输入窗口的步长和大小以及输入语音的长度等急剧上升，此外，由于相邻帧所具有的上下文基本是重复的，会带来计算的冗余，并且上下文的大小限制了感受野的大小进而限制了分类能力。
技术实现思路
有鉴于此，本专利技术提供了一种语音的密集分类方法及相关装置，用以解决现有的分类过程中，所需要的存储空间是随输入窗口的步长和大小以及输入语音的长度等急剧上升的，此外，由于相邻帧所具有的上下文基本是重复的，会带来计算的冗余，并且上下文的大小限制了感受野的大小进而限制了分类能力的问题。具体方案如下：一种语音的密集分类方法，包括：获取输入语音；提取所述输入语音中第一预设数量维度第一特征；将所述第一预设数量维度第一特征进行扩维，得到第二预设数量维度目标特征；将所述第二预设数量维度目标特征在全卷积网络中进行处理，得到所述输入语音的分类结果。上述的方法，可选的，将所述第二预设数量维度目标特征在全卷积网络中进行处理，得到所述输入语音的...

【技术保护点】
1.一种语音的密集分类方法，其特征在于，包括：/n获取输入语音；/n提取所述输入语音中第一预设数量维度第一特征；/n将所述第一预设数量维度第一特征进行扩维，得到第二预设数量维度目标特征；/n将所述第二预设数量维度目标特征在全卷积网络中进行处理，得到所述输入语音的分类结果。/n

【技术特征摘要】
1.一种语音的密集分类方法，其特征在于，包括：
获取输入语音；
提取所述输入语音中第一预设数量维度第一特征；
将所述第一预设数量维度第一特征进行扩维，得到第二预设数量维度目标特征；
将所述第二预设数量维度目标特征在全卷积网络中进行处理，得到所述输入语音的分类结果。

2.根据权利要求1所述的方法，其特征在于，将所述第二预设数量维度目标特征在全卷积网络中进行处理，得到所述输入语音的分类结果，包括：
设定池化核、步长和扩张率，其中，所述池化核和所述步长相等；
依据所述池化核、所述步长和所述扩张率对所述第二预设数量维度目标特征在全卷积网络中进行扩张卷积、批归一化、整流线性单元和池化操作，得到所述输入语音的分类结果。

3.根据权利要求2所述的方法，其特征在于，依据所述池化核、所述步长和所述扩张率对所述第二预设数量维度目标特征在全卷积网络中进行扩张卷积、批归一化、整流线性单元和池化操作，得到所述输入语音的分类结果，还包括：
获取分类过程中的损失函数，依据所述损失函数采用反向传播算法进行梯度更新。

4.根据权利要求1所述的方法，其特征在于，将所述第二预设数量维度目标特征在全卷积网络中进行处理，得到所述输入语音的分类结果，还包括：
依据所述分类结果对语音唤醒、语音活动检测或者语音识别进行分析。

5.根据权利要求1所述的方法，其特征在于，提取所述输入语音中第一预设数量维度第一特征，包括：
将所述输入语音划分为第三预设数量的帧；
将所述第三预设数量的帧进行预加重、加窗和傅里叶变换处理后，得到能量谱；
将所述能量谱进行滤波后得到所述第...

【专利技术属性】
技术研发人员：陈孝良，王超，冯大航，常乐，
申请(专利权)人：北京声智科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人