基于循环神经网络语音识别中语音数据增强方法及装置制造方法及图纸

技术编号：16719021 阅读：54 留言：0更新日期：2017-12-05 17:01

本发明专利技术涉及语音识别处理领域，提出了一种基于循环神经网络的语音数据增强的方法，旨在解决循环神经网络在语音识别中由于模拟语音识别中不规则语法现象引起的过度建模词间依赖的问题。该方法包括：从输入的语音数据中提取标识语音的各个频率能量值的声学特征，生成声学特征向量；根据预设的标注文件和声学特征向量获得语音数据的语句标签序列；通过决策聚类预设的标注文件和语句标签序列获得决策聚类操作后的对齐文件；生成一个[0,1]之间的第一随机数γ，并与预设的调整比例α比较；如果第一随机数γ大于调整比例α，在边界文件所指示的位置对上述语音数据进行增强处理。该方法够快速、方便地增加训练数据中不规则的口语化现象。

Speech data enhancement method and device based on recurrent neural network speech recognition

The present invention relates to the field of speech recognition, put forward a method of speech enhancement based on the data of recurrent neural network, recurrent neural network aims to solve in speech recognition due to excessive modeling word cause irregular grammatical phenomena simulation in speech recognition on problems. The method includes: extracting acoustic features of each frequency energy value from the identification voice input speech data, generate acoustic feature vector; according to the preset label file and acoustic feature vector sequence statement label voice data; document clustering decision alignment operation through the document and statement label sequence labeling decision preset after clustering; the first random number between gamma generates a [0,1], and adjust the proportion of pre alpha comparison; if the first random number is greater than the proportion of alpha gamma adjustment, indicating the position of the file in the boundary of the voice data is enhanced. The method is fast and convenient to increase the irregular colloquial phenomenon in the training data.

全部详细技术资料下载

【技术实现步骤摘要】
基于循环神经网络语音识别中语音数据增强方法及装置
本专利技术涉语音识别
，具体涉及中文口语语言处理、深度学习和大词汇量连续语音识别领域，特别涉及一种基于循环神经网络语音识别中的语音数据增强方法及装置。
技术介绍
语音识别是指把一段语音序列，转换成文本序列，是一个序列到序列的映射任务。随着大数据时代的来临，人工智能快速发展，语音识别作为一种便捷的人机交互入口，变得越来越重要。当前，在进行语音识别模型的训练中，尤其是在不同的应用场景中，常常由于应用场景不同，而不同场景之间的表达习惯不同，数据源不能通用，新的应用场景中数据积累较少，人工标注数据的成本非常高。在自然的口语下，口语的不规则表达非常多，现有的用于训练上述语音识别模型的数据无法全面的模拟口语表达中的重复、省略、儿化等多种不规则现象，导致在训练语音识别模型时训练用语音数据的资源稀缺。
技术实现思路
为了解决现有技术中的上述问题，本专利技术采用以下技术方案以解决上述问题：第一方面，本申请提供了基于循环神经网络语音识别中语音数据增强方法，该方法包括如下步骤：在训练基于循环神经网络的语音识别模型中，训练用数据输入神经网络之前，对上述语音数据进行增强处理上述语音数据增强方法包括：从输入的语音数据中提取标识语音的各个频率能量值的声学特征，生成声学特征向量；根据预设的标注文件和上述声学特征向量获得上述语音数据的语句标签序列；通过决策聚类预设的标注文件和上述语句标签序列获得决策聚类操作后的对齐文件；生成一个[0,1]之间的第一随机数γ，并与预设的调整比例α比较；如果上述第一随机数γ大于上述调整比例α，在上述边界文件所...
基于循环神经网络语音识别中语音数据增强方法及装置

【技术保护点】
一种基于循环神经网络语音识别中语音数据增强方法，其特征在于，在训练基于循环神经网络的语音识别模型中，训练用语音数据输入神经网络之前，对所述语音数据进行增强处理，所述语音数据增强方法包括：从输入的语音数据中提取标识语音的各个频率能量值的声学特征，生成声学特征向量；根据预设的标注文件和所述声学特征向量获得所述语音数据的语句标签序列；通过决策聚类预设的标注文件和所述语句标签序列获得决策聚类操作后的对齐文件；生成一个[0,1]之间的第一随机数γ，并与预设的调整比例α比较；如果所述第一随机数γ大于所述调整比例α，在所述对齐文件的边界所指示的位置对所述语音数据进行增强处理。

【技术特征摘要】
1.一种基于循环神经网络语音识别中语音数据增强方法，其特征在于，在训练基于循环神经网络的语音识别模型中，训练用语音数据输入神经网络之前，对所述语音数据进行增强处理，所述语音数据增强方法包括：从输入的语音数据中提取标识语音的各个频率能量值的声学特征，生成声学特征向量；根据预设的标注文件和所述声学特征向量获得所述语音数据的语句标签序列；通过决策聚类预设的标注文件和所述语句标签序列获得决策聚类操作后的对齐文件；生成一个[0,1]之间的第一随机数γ，并与预设的调整比例α比较；如果所述第一随机数γ大于所述调整比例α，在所述对齐文件的边界所指示的位置对所述语音数据进行增强处理。2.根据权利要求1所述的方法，其特征在于，所述方法还包括在所述边界文件所指示位置对所述语音数据进行增强处理之前，确定所述增强处理的类型：根据所述第一随机数γ的大小，通过如下公式计算对所述语音数据的模拟操作序号n：从预存的模拟化操作集合中选出与所述模拟操作序号对应的操作信息，作为所述增强处理的模拟化操作类型。3.根据权利要求2所述的方法，其特征在于，所述方法还包括在确定所述增强处理的类型之后，根据预设的操作粒度表选出所述增强处理的模拟化操作类型所对应的增强处理的模拟操作的粒度。4.根据权利要求3所述的方法，其特征在于，所述方法还包括根据所述增强处理的模拟操作的粒度确定所述增强处理的模拟操作的最小操作粒度单元。5.根据权利要求4所述的方法，其特征在于，所述在所述边界文件所指示的位置对所述语音数据进行增强处理，包括：判断所述模拟化操作序号对应模拟操作的类型是否为插入和/或删除操作；如果是，计算所述插入和/或删除操作的最小操作粒度单元所占所述语句标签序列总数的比例作为第一比例；随机生成零与所述第一比例之间的第二随机数；将所述第二随机数与所述语句标签序列的总数的乘积作为所述插入和/...

【专利技术属性】
技术研发人员：赵媛媛，徐爽，徐波，
申请(专利权)人：中国科学院自动化研究所，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人