智能语音处理方法和装置制造方法及图纸

技术编号：22975806 阅读：23 留言：0更新日期：2019-12-31 23:50

本发明专利技术公开了一种智能语音处理方法和装置。所述方法包括：对输入的语音进行分帧处理以获取多个帧的断句参数；将所述多个帧的断句参数作为特征值输入经训练的人工神经网络(ANN)，所述ANN包括循环神经网络(RNN)；以及将所述RNN的输出特征送入全连接层，以判定输入的每个帧是否为断句点。优选地，所述RNN可以是长短时记忆(LSTM)神经网络或门控循环单元(GRU)神经网络，并且所述ANN还可以是CNN后接RNN的结构。该方案能够利用后续语音识别处理中所需的神经网络或神经网络计算平台，对输入的长句语音进行智能断句，由此实现与智能语音识别相配合的精准断句方案。

Intelligent speech processing method and device

全部详细技术资料下载

【技术实现步骤摘要】
智能语音处理方法和装置
本专利技术涉及语音处理，尤其涉及基于神经网络对语音进行的智能处理。
技术介绍
语音识别(SpeechRecognition)是将语言的模拟信号顺序映射到一个具体的单词集合上的技术。近年来，人工神经网络(ANN)方法在语音识别领域取得的效果已远远超出了所有传统方法，成为了全行业的主流。其中，深度神经网络有着极为广泛的应用。然而，通过近几年的迅速发展，神经网络的规模不断增长，已公开的先进的神经网络可达数百层、数亿个连接，属于计算和访存密集型应用。现有的基于GPU、FPGA或ASIC的异构神经网络处理器虽然能够大幅降低神经网络的算力和功耗需求，但由于硬件资源的限制，基于GPU或是基于FPGA或ASIC的专用神经网络推理加速器对单次输入数据的长度有所限制，即，对每一次所能处理的语句的最大长度有所限制。因此需要合适的断句方法，对于较长的输入语句进行处理，分段进行识别。传统的语音分割，或者端点检测方法，多数是基于语音的短时能量、短时过零率，结合门限值和判断逻辑进行判断。但是上述语音分割方案不涉及时间的相关性，通常无法对断句点做出判断。因此，需要一种适于神经网络语音识别系统使用的、更为准确的断句方案。
技术实现思路
本专利技术提出了一种智能语音处理方案，其能够利用后续语音识别处理中所需的神经网络或神经网络计算平台，对输入的长句语音进行智能断句，由此实现与智能语音识别相配合的断句方案。根据本专利技术的一个方面，提出了一种智能语音处理方法，包括：对输入的语音进...

【技术保护点】
1.一种智能语音处理方法，包括：/n对输入的语音进行分帧处理以获取多个帧的断句参数；/n将所述多个帧的断句参数作为特征值输入经训练的人工神经网络(ANN)，所述ANN包括循环神经网络(RNN)；/n将所述RNN的输出特征送入全连接层，以判定输入的每个帧是否为断句点。/n

【技术特征摘要】
1.一种智能语音处理方法，包括：
对输入的语音进行分帧处理以获取多个帧的断句参数；
将所述多个帧的断句参数作为特征值输入经训练的人工神经网络(ANN)，所述ANN包括循环神经网络(RNN)；
将所述RNN的输出特征送入全连接层，以判定输入的每个帧是否为断句点。

2.如权利要求1所述的方法，其中，将所述多个帧的断句参数输入经训练的ANN包括：
将所述多个帧的断句参数输入经训练的卷积神经网络(CNN)；以及
将所述CNN的输出特征送入经训练的所述RNN。

3.如权利要求1所述的方法，其中，获取的所述多个帧的断句参数包括如下至少一项：
所述多个帧中每一帧的归一化短时能量；
所述多个帧中每一帧的短时过零率；
所述多个帧中每一帧的归一化短时傅里叶变换结果；以及
上述三项中任意两项或三项的组合或加权组合。

4.如权利要求1所述的方法，其中，将所述RNN的输出特征送入全连接层，以判定输入的每个帧是否为断句点包括：
将所述RNN的输出特征送入全连接层，以判定输入的每个帧是否为初选断句点；以及
基于预定规则对所述初选断句点进行筛选以选出终选断句点。

5.如权利要求4所述的方法，其中，基于预定规则对所述初选断句点进行筛选以选出终选断句点包括：
对初选断句点进行聚类，以选取每个无声段的聚类中心作为筛选出的终选断句点。

6.如权利要求4所述的方法，其中，基于预定规则对所述初选断句点进行筛选以选出终选断句点包括：
基于如下至少一项预定限制选择终选断句点：
相邻断句点之间的距离小于最大能处理语句长度；以及
终选断句点的个数最小。

7.如权利要求1所述的方法，其中，所述RNN是长短时记忆(LSTM)神经网络或门控循环单元(GRU)神经网络。

8.如权利要求1所述的方法，其中，所述ANN和全连接层的参数是基于包括接在所述全连接层之后的Softmax层的网络模型训练得到的。

9.一种智能语音处理装置，包括：
参数提取装置，用于对输入的语音进行分帧处理以获取多个帧的断句参数；
神经网络计算装置，用于将所述多个帧的断句参数作为特征值输入经训练的人工神经网络(ANN)，所述ANN包括循环神经网络(RNN)；
断句点判断装置，用于将所述RNN的输出特征送入全连接层，以判定...

【专利技术属性】
技术研发人员：李鑫，孟通，韩冬，
申请(专利权)人：北京深鉴智能科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人