基于循环神经网络语音识别中语音数据增强方法及装置制造方法及图纸

技术编号:16719021 阅读:54 留言:0更新日期:2017-12-05 17:01
本发明专利技术涉及语音识别处理领域,提出了一种基于循环神经网络的语音数据增强的方法,旨在解决循环神经网络在语音识别中由于模拟语音识别中不规则语法现象引起的过度建模词间依赖的问题。该方法包括:从输入的语音数据中提取标识语音的各个频率能量值的声学特征,生成声学特征向量;根据预设的标注文件和声学特征向量获得语音数据的语句标签序列;通过决策聚类预设的标注文件和语句标签序列获得决策聚类操作后的对齐文件;生成一个[0,1]之间的第一随机数γ,并与预设的调整比例α比较;如果第一随机数γ大于调整比例α,在边界文件所指示的位置对上述语音数据进行增强处理。该方法够快速、方便地增加训练数据中不规则的口语化现象。

Speech data enhancement method and device based on recurrent neural network speech recognition

The present invention relates to the field of speech recognition, put forward a method of speech enhancement based on the data of recurrent neural network, recurrent neural network aims to solve in speech recognition due to excessive modeling word cause irregular grammatical phenomena simulation in speech recognition on problems. The method includes: extracting acoustic features of each frequency energy value from the identification voice input speech data, generate acoustic feature vector; according to the preset label file and acoustic feature vector sequence statement label voice data; document clustering decision alignment operation through the document and statement label sequence labeling decision preset after clustering; the first random number between gamma generates a [0,1], and adjust the proportion of pre alpha comparison; if the first random number is greater than the proportion of alpha gamma adjustment, indicating the position of the file in the boundary of the voice data is enhanced. The method is fast and convenient to increase the irregular colloquial phenomenon in the training data.

【技术实现步骤摘要】
基于循环神经网络语音识别中语音数据增强方法及装置
本专利技术涉语音识别
,具体涉及中文口语语言处理、深度学习和大词汇量连续语音识别领域,特别涉及一种基于循环神经网络语音识别中的语音数据增强方法及装置。
技术介绍
语音识别是指把一段语音序列,转换成文本序列,是一个序列到序列的映射任务。随着大数据时代的来临,人工智能快速发展,语音识别作为一种便捷的人机交互入口,变得越来越重要。当前,在进行语音识别模型的训练中,尤其是在不同的应用场景中,常常由于应用场景不同,而不同场景之间的表达习惯不同,数据源不能通用,新的应用场景中数据积累较少,人工标注数据的成本非常高。在自然的口语下,口语的不规则表达非常多,现有的用于训练上述语音识别模型的数据无法全面的模拟口语表达中的重复、省略、儿化等多种不规则现象,导致在训练语音识别模型时训练用语音数据的资源稀缺。
技术实现思路
为了解决现有技术中的上述问题,本专利技术采用以下技术方案以解决上述问题:第一方面,本申请提供了基于循环神经网络语音识别中语音数据增强方法,该方法包括如下步骤:在训练基于循环神经网络的语音识别模型中,训练用数据输入神经网络之前,对上述语音数据进行增强处理上述语音数据增强方法包括:从输入的语音数据中提取标识语音的各个频率能量值的声学特征,生成声学特征向量;根据预设的标注文件和上述声学特征向量获得上述语音数据的语句标签序列;通过决策聚类预设的标注文件和上述语句标签序列获得决策聚类操作后的对齐文件;生成一个[0,1]之间的第一随机数γ,并与预设的调整比例α比较;如果上述第一随机数γ大于上述调整比例α,在上述边界文件所指示的位置对上述语音数据进行增强处理。在一些示例中,上述方法还包括在上述边界文件所指示位置对上述语音数据进行增强处理之前,确定上述增强处理的类型:根据上述第一随机数γ的大小,通过如下公式计算对上述语音数据的模拟操作序号n:从模拟化操作集合中选出与上述模拟操作序号对应的操作信息,作为上述增强处理的模拟化操作类型。在一些示例中,所述方法还包括在确定所述增强处理的类型之后,根据预设的操作粒度表选出所述增强处理的模拟化操作类型所对应的增强处理的模拟操作的粒度。在一些示例中,上述方法还包括根据上述增强处理的模拟操作的粒度确定上述增强处理的模拟操作的最小操作粒度单元。在一些示例中,上述在上述边界文件所指示的位置对上述语音数据进行增强处理,包括:判断上述模拟化操作序号对应模拟操作的类型是否为插入和/或删除操作;如果是,计算上述插入和/或删除操作的最小操作粒度单元所占上述语句标签序列总数的比例作为第一比例;随机生成零与上述第一比例之间的第二随机数;将上述第二随机数与上述语句标签序列的总数的乘积作为上述插入和/或删除操作的单元数目,标记为第一数目;在上述语句标签序列上进行第一数目个插入和/或删除操作。在一些示例中,上述在上述语句标签序列上进行第一数目个插入和/或删除操作,包括:依次生成第一数目个零与上述语句标签序列的总数之间的第三随机数;在上述第三随机数所指示的位置对上述语句标签序列所模拟的语句进行上述插入和/或删除操作。在一些示例中,其特征在于上述在上述边界文件所指示的位置对上述语音数据进行增强处理,包括:判断上述模拟化操作序号对应的操作的类型是否为调序操作;如果是,随机生成[0,1]之间的第四随机数;计算上述调序操作的最小操作粒度单元所占上述语句标签序列总数的比例作为第二比例;随机生成零与上述第二比例之间的第五随机数;将上述第五随机数与上述语句标签序列总数的乘积作为上述调序操作的第二数目;在上述语句标签序列中随机调换第二数目个调序操作的最小操作粒度单元的位置。在一些示例中,所述方法还包括根据预设的标注文件和所述声学特征向量获得所述语音数据的语句标签序列,包括:利用公式从语料库中提取出使得所述声学特征向量后验概率最大的词序列:由上述词序列生成上述语音数据的语句标签序列。其中,公式为:其中,X1:T=x1,…,xT表示有T帧的声学特征向量,w表示词序列,P(w)表示表示词序列的先验分布的概率,最可能发生的对齐状态序列给定时,词序列的概率;表示在输入到解码器前的声学似然。第二方面,本申请提供了一种存储装置,该存储装置中存储有多条程序,程序适于由处理器加载并执行以实现上述第一方面中所述的基于循环神经网络的语音数据增强的方法。第三方面,本申请提供了一种处理装置,包括处理器和存储设备,其中,处理器适于执行各条程序;存储设备适于存储多条程序;程序适于由处理器加载并执行以实现上述第一方面中所述的基于循环神经网络语音识别中语音数据增强方法。本申请提供的基于神经网络语音识别中语音数据增强方法和设备,通过从输入的语音数据中所获得声学特征值,生成声学特征向量,并根据标注文件和所述声学特征向量获得语句的标签序列;之后,通过决策聚类预设的标注文件和所述语句标签序列获得决策聚类操作后的对齐文件;生成一个[0,1]之间的第一随机数γ,并与预设的调整比例α比较;如果第一随机数γ大于所述调整比例α,在上述对齐文件的边界所指示的位置对上述语音数据进行增强处理。上述方法模拟口语表达中的不规则现象,如重复、删除等,充分利用来自各不同场景的数据,提高口语化语音数据的数量。附图说明图1是本申请可以应用于其中的示例性系统架构图;图2是根据本申请的基于循环神经网络语音识别中语音数据增强方法的一个实施例的流程图;图3为本申请提供的语音数据的语音信号图;图4为本申请提供的增强处理操作示意图。具体实施方式下面参照附图来描述本专利技术的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本专利技术的技术原理,并非旨在限制本专利技术的保护范围。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。图1示出了可以应用本申请的基于循环神经网络语音识别中语音数据增强方法或基于循环神经网络语音识别中语音数据增强设备的实施例的示例性系统架构。如图1所示,系统架构可以包括终端设备网络104和服务器105。其中,终端设备可以是多个相同或不同的设备,可以为第一终端101、第二终端102、第三终端103。网络104用以在第一终端101、第二终端102、第三终端103和服务器105之间,提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。第一终端101、第二终端102、第三终端103可以通过网络104与服务器105之间进行信息交互,以接收或发送信息等。第一终端101、第二终端102、第三终端103之间可以通过网络104进行信息交互。第一终端101、第二终端102、第三终端103可以是具有显示屏并支持网络通信的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机以及由多个计算机构成的计算机处理系统等等。需要说明的是,第一终端101、第二终端102、第三终端103上装设有可以使用语音输入的各类应用,例如,各类搜索类应用、社交平台交互工具等。服务器105可以是提供各种服务的服务器,例如,对终端设备上的搜索应用提供技术支持的后台数据处理服务器。后台数据处理服务器对接收到的用户通过终端设备输入的语音数据等进行处理,将本文档来自技高网...
基于循环神经网络语音识别中语音数据增强方法及装置

【技术保护点】
一种基于循环神经网络语音识别中语音数据增强方法,其特征在于,在训练基于循环神经网络的语音识别模型中,训练用语音数据输入神经网络之前,对所述语音数据进行增强处理,所述语音数据增强方法包括:从输入的语音数据中提取标识语音的各个频率能量值的声学特征,生成声学特征向量;根据预设的标注文件和所述声学特征向量获得所述语音数据的语句标签序列;通过决策聚类预设的标注文件和所述语句标签序列获得决策聚类操作后的对齐文件;生成一个[0,1]之间的第一随机数γ,并与预设的调整比例α比较;如果所述第一随机数γ大于所述调整比例α,在所述对齐文件的边界所指示的位置对所述语音数据进行增强处理。

【技术特征摘要】
1.一种基于循环神经网络语音识别中语音数据增强方法,其特征在于,在训练基于循环神经网络的语音识别模型中,训练用语音数据输入神经网络之前,对所述语音数据进行增强处理,所述语音数据增强方法包括:从输入的语音数据中提取标识语音的各个频率能量值的声学特征,生成声学特征向量;根据预设的标注文件和所述声学特征向量获得所述语音数据的语句标签序列;通过决策聚类预设的标注文件和所述语句标签序列获得决策聚类操作后的对齐文件;生成一个[0,1]之间的第一随机数γ,并与预设的调整比例α比较;如果所述第一随机数γ大于所述调整比例α,在所述对齐文件的边界所指示的位置对所述语音数据进行增强处理。2.根据权利要求1所述的方法,其特征在于,所述方法还包括在所述边界文件所指示位置对所述语音数据进行增强处理之前,确定所述增强处理的类型:根据所述第一随机数γ的大小,通过如下公式计算对所述语音数据的模拟操作序号n:从预存的模拟化操作集合中选出与所述模拟操作序号对应的操作信息,作为所述增强处理的模拟化操作类型。3.根据权利要求2所述的方法,其特征在于,所述方法还包括在确定所述增强处理的类型之后,根据预设的操作粒度表选出所述增强处理的模拟化操作类型所对应的增强处理的模拟操作的粒度。4.根据权利要求3所述的方法,其特征在于,所述方法还包括根据所述增强处理的模拟操作的粒度确定所述增强处理的模拟操作的最小操作粒度单元。5.根据权利要求4所述的方法,其特征在于,所述在所述边界文件所指示的位置对所述语音数据进行增强处理,包括:判断所述模拟化操作序号对应模拟操作的类型是否为插入和/或删除操作;如果是,计算所述插入和/或删除操作的最小操作粒度单元所占所述语句标签序列总数的比例作为第一比例;随机生成零与所述第一比例之间的第二随机数;将所述第二随机数与所述语句标签序列的总数的乘积作为所述插入和/...

【专利技术属性】
技术研发人员:赵媛媛徐爽徐波
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1