智能语音处理方法和装置制造方法及图纸

技术编号:22975806 阅读:23 留言:0更新日期:2019-12-31 23:50
本发明专利技术公开了一种智能语音处理方法和装置。所述方法包括:对输入的语音进行分帧处理以获取多个帧的断句参数;将所述多个帧的断句参数作为特征值输入经训练的人工神经网络(ANN),所述ANN包括循环神经网络(RNN);以及将所述RNN的输出特征送入全连接层,以判定输入的每个帧是否为断句点。优选地,所述RNN可以是长短时记忆(LSTM)神经网络或门控循环单元(GRU)神经网络,并且所述ANN还可以是CNN后接RNN的结构。该方案能够利用后续语音识别处理中所需的神经网络或神经网络计算平台,对输入的长句语音进行智能断句,由此实现与智能语音识别相配合的精准断句方案。

Intelligent speech processing method and device

【技术实现步骤摘要】
智能语音处理方法和装置
本专利技术涉及语音处理,尤其涉及基于神经网络对语音进行的智能处理。
技术介绍
语音识别(SpeechRecognition)是将语言的模拟信号顺序映射到一个具体的单词集合上的技术。近年来,人工神经网络(ANN)方法在语音识别领域取得的效果已远远超出了所有传统方法,成为了全行业的主流。其中,深度神经网络有着极为广泛的应用。然而,通过近几年的迅速发展,神经网络的规模不断增长,已公开的先进的神经网络可达数百层、数亿个连接,属于计算和访存密集型应用。现有的基于GPU、FPGA或ASIC的异构神经网络处理器虽然能够大幅降低神经网络的算力和功耗需求,但由于硬件资源的限制,基于GPU或是基于FPGA或ASIC的专用神经网络推理加速器对单次输入数据的长度有所限制,即,对每一次所能处理的语句的最大长度有所限制。因此需要合适的断句方法,对于较长的输入语句进行处理,分段进行识别。传统的语音分割,或者端点检测方法,多数是基于语音的短时能量、短时过零率,结合门限值和判断逻辑进行判断。但是上述语音分割方案不涉及时间的相关性,通常无法对断句点做出判断。因此,需要一种适于神经网络语音识别系统使用的、更为准确的断句方案。
技术实现思路
本专利技术提出了一种智能语音处理方案,其能够利用后续语音识别处理中所需的神经网络或神经网络计算平台,对输入的长句语音进行智能断句,由此实现与智能语音识别相配合的断句方案。根据本专利技术的一个方面,提出了一种智能语音处理方法,包括:对输入的语音进行分帧处理以获取多个帧的断句参数;将所述多个帧的断句参数作为特征值输入经训练的人工神经网络(ANN),所述ANN包括循环神经网络(RNN);以及将所述RNN的输出特征送入全连接层,以判定输入的每个帧是否为断句点。优选地,所述RNN可以是长短时记忆(LSTM)神经网络或门控循环单元(GRU)神经网络。ANN和全连接层的参数是基于包括接在所述全连接层之后的Softmax层的网络模型训练得到的。由此,能够利用循环神经网络的全局性时序特征的提取能力,实现更为准确的断句点判断。优选地,将所述多个帧的断句参数输入经训练的ANN包括:将所述多个帧的断句参数输入经训练的卷积神经网络(CNN);以及将所述CNN的输出特征送入经训练的所述RNN。通过引入CNN,能够利用CNN的局部特征提取能力,上述能力与RNN的全局性时序特征的提取能力相结合,能够实现更为精准的断句点判断。获取的所述多个帧的断句参数可以包括如下至少一项:所述多个帧中每一帧的归一化短时能量;所述多个帧中每一帧的短时过零率;所述多个帧中每一帧的归一化短时傅里叶变换结果;以及上述三项中任意两项或三项的组合或加权组合。由此实现基于应用的灵活参数选取。将所述RNN的输出特征送入全连接层,以判定输入的每个帧是否为断句点可以包括:将所述RNN的输出特征送入全连接层,以判定输入的每个帧是否为初选断句点;以及基于预定规则对所述初选断句点进行筛选以选出终选断句点。由此进一步优化断句点的选择。基于预定规则对所述初选断句点进行筛选以选出终选断句点可以包括:对初选断句点进行聚类,以选取每个无声段的聚类中心作为筛选出的终选断句点。基于预定规则对所述初选断句点进行筛选以选出终选断句点可以包括:基于如下至少一项预定限制选择终选断句点:相邻断句点之间的距离小于最大能处理语句长度;以及终选断句点的个数最小。根据本专利技术的另一个方面,提出了一种智能语音处理装置,包括:参数提取装置,用于对输入的语音进行分帧处理以获取多个帧的断句参数;神经网络计算装置,用于将所述多个帧的断句参数作为特征值输入经训练的人工神经网络(ANN),所述ANN包括循环神经网络(RNN);断句点判断装置,用于将所述RNN的输出特征送入全连接层,以判定输入的每个帧是否为断句点。优选地,RNN可以是长短时记忆(LSTM)神经网络或门控循环单元(GRU)神经网络。ANN和全连接层的参数可以是基于包括接在所述全连接层之后的Softmax层的网络模型训练得到的。优选地,神经网络计算装置可以将所述多个帧的断句参数输入经训练的卷积神经网络(CNN)和经训练的所述RNN,以获取用于输入所述全连接层的输出特征。优选地,参数提取装置获取的所述多个帧的断句参数可以包括如下至少一项:所述多个帧中每一帧的归一化短时能量;所述多个帧中每一帧的短时过零率;所述多个帧中每一帧的归一化短时傅里叶变换结果;以及上述三项中任意两项或三项的组合或加权组合。优选地,断句点判断装置可以包括:初选断句点判断装置,用于将所述RNN的输出特征送入全连接层,以判定输入的每个帧是否为初选断句点;以及终选断句点筛选装置,用于基于预定规则对所述初选断句点进行筛选以选出终选断句点。终选断句点筛选装置还可以用于:对初选断句点进行聚类,以选取每个无声段的聚类中心作为筛选出的终选断句点。终选断句点筛选装置还可以用于:基于如下至少一项预定限制选择终选断句点:相邻断句点之间的距离小于最大能处理语句长度;以及终选断句点的个数最小。根据本专利技术的又一个方面,提出了一种计算平台,包括用于神经网络计算推理的高并行度计算模块,其中,所述计算平台用于实现包括如上所述方法的任一项的语音处理方法。优选地,该计算平台由ASIC、FPGA或GPU实现。根据本专利技术的再一个方面,提出了一种计算设备,包括:处理器;以及存储器,其上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行如上所述的智能语音处理方法。根据本专利技术的一个方面,提出了.一种非暂时性机器可读存储介质,其上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器执行如上所述的智能语音处理方法。本专利技术的智能语音处理方案能够利用后续语音识别处理中所需的神经网络或神经网络计算平台,对输入的长句语音进行智能断句,由此实现与智能语音识别相配合的断句方案。在这其中,通过引入RNN,能够利用循环神经网络的全局性时序特征的提取能力,实现更为准确的断句点判断。进一步地,通过引入CNN,能够利用CNN的局部特征提取能力,上述能力与RNN的全局性时序特征的提取能力相结合,能够实现更为精准的断句点判断。由此,能够解决智能语音识别中的断句问题同时兼顾句子长度受限对识别精度的影响。附图说明通过结合附图对本公开示例性实施方式进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加明显,其中,在本公开示例性实施方式中,相同的参考标号通常代表相同部件。图1示出了DNN的典型结构图。图2示出了LSTM神经网络模型的示意图。图3示出了加窗操作的示意图。图4示出了原始波形、短时能量和短时过零率之间关系的一个例子。图5示出了对语音做短时傅里叶变换后的时频分布图的一个例子。图6A和6B分别示出了现有的单门限和双门限法的示意图。图7示出了根据本专利技术一个实施例的智能语音处理方法。图8示出了对语音信号分帧加本文档来自技高网...

【技术保护点】
1.一种智能语音处理方法,包括:/n对输入的语音进行分帧处理以获取多个帧的断句参数;/n将所述多个帧的断句参数作为特征值输入经训练的人工神经网络(ANN),所述ANN包括循环神经网络(RNN);/n将所述RNN的输出特征送入全连接层,以判定输入的每个帧是否为断句点。/n

【技术特征摘要】
1.一种智能语音处理方法,包括:
对输入的语音进行分帧处理以获取多个帧的断句参数;
将所述多个帧的断句参数作为特征值输入经训练的人工神经网络(ANN),所述ANN包括循环神经网络(RNN);
将所述RNN的输出特征送入全连接层,以判定输入的每个帧是否为断句点。


2.如权利要求1所述的方法,其中,将所述多个帧的断句参数输入经训练的ANN包括:
将所述多个帧的断句参数输入经训练的卷积神经网络(CNN);以及
将所述CNN的输出特征送入经训练的所述RNN。


3.如权利要求1所述的方法,其中,获取的所述多个帧的断句参数包括如下至少一项:
所述多个帧中每一帧的归一化短时能量;
所述多个帧中每一帧的短时过零率;
所述多个帧中每一帧的归一化短时傅里叶变换结果;以及
上述三项中任意两项或三项的组合或加权组合。


4.如权利要求1所述的方法,其中,将所述RNN的输出特征送入全连接层,以判定输入的每个帧是否为断句点包括:
将所述RNN的输出特征送入全连接层,以判定输入的每个帧是否为初选断句点;以及
基于预定规则对所述初选断句点进行筛选以选出终选断句点。


5.如权利要求4所述的方法,其中,基于预定规则对所述初选断句点进行筛选以选出终选断句点包括:
对初选断句点进行聚类,以选取每个无声段的聚类中心作为筛选出的终选断句点。


6.如权利要求4所述的方法,其中,基于预定规则对所述初选断句点进行筛选以选出终选断句点包括:
基于如下至少一项预定限制选择终选断句点:
相邻断句点之间的距离小于最大能处理语句长度;以及
终选断句点的个数最小。


7.如权利要求1所述的方法,其中,所述RNN是长短时记忆(LSTM)神经网络或门控循环单元(GRU)神经网络。


8.如权利要求1所述的方法,其中,所述ANN和全连接层的参数是基于包括接在所述全连接层之后的Softmax层的网络模型训练得到的。


9.一种智能语音处理装置,包括:
参数提取装置,用于对输入的语音进行分帧处理以获取多个帧的断句参数;
神经网络计算装置,用于将所述多个帧的断句参数作为特征值输入经训练的人工神经网络(ANN),所述ANN包括循环神经网络(RNN);
断句点判断装置,用于将所述RNN的输出特征送入全连接层,以判定...

【专利技术属性】
技术研发人员:李鑫孟通韩冬
申请(专利权)人:北京深鉴智能科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1