一种新型服务机器人语音识别方法技术

技术编号：19513832 阅读：25 留言：0更新日期：2018-11-21 09:19

本发明专利技术属于语音识别领域，公开了一种新型服务机器人语音识别方法。本发明专利技术的语音对话系统利用语音分离和文本处理，提高了语音对话系统的性能。主要包括以下方面：一、新型服务机器人语音识别系统在传统语音识别系统的基础上加入了声源分离环节解决了系统对混合声音流的识别问题，二、新型服务机器人语音识别系统在传统语音识别系统的基础上加入了文本筛选环节解决了系统对“无意义”文本的滤除问题，改善机器人的错误应答率。实验证明新型服务机器人语音识别系统较传统语音识别系统对混合声音的识别率有很大的提升，对文本的误应答有明显的改善。

全部详细技术资料下载

【技术实现步骤摘要】
一种新型服务机器人语音识别方法
本专利技术属于语音识别领域，涉及一种新型服务机器人语音识别方法。
技术介绍
语音识别就是让机器能够听懂人说的话,其根本目的是研究一种具有听觉功能的机器,使机器能直接接受人的语音,理解人的意图并做出相应的反应。目前针对语音识别提出了很多算法，但是这些研究基本上都是基于较为纯净的语音环境，一旦环境中有噪声干扰或存在其他人的声音，语音识别就会受到严重影响。因为大多数语音识别的语音识别系统基本上都是在无干扰、无噪声和无混响的“纯净”环境中搭建而成。而实现环境中不可避免地存在干扰和噪声，包括其他人的声音和回声等，这些噪声使语音识别系统的性能大大降低甚至瘫痪。已有的信号去噪、参数去噪和抗噪识别等方法都有一定的局限。如果能实现干扰、噪声和语音的自动分离，即在识别前就获得较为纯净的语音，可以彻底解决噪声环境下的识别问题。近年来的声源分离、声纹识别等技术的飞速发展为干扰、噪声和语音的分离提供了可能。另外现存的人机对话系统对请求文本没有丝毫的鉴别能力，它仅仅是通过请求文本去得到应答文本，希望搭建一个可以对请求文本进行过滤的人机对话系统。它可以滤除一些无意义的请求文本，改善机器人的错误应答率。
技术实现思路
针对现有人机对话系统的不足，本专利技术提出将声源分离和文本处理等方法应用于人机对话系统，以解决人机对话系统对混合声音流束手无策的问题和对垃圾文本误响应的问题。提出一种新型服务机器人语音识别系统。新型服务机器人语音识别系统在传统的语音识别系统的基础上加入了声源分离环节，解决了系统对混合声音流的识别问题，加入了文本筛选环节，解决了系统对“无意义”文本...

【技术保护点】
1.一种新型服务机器人语音识别方法，其特征在于，包括如下步骤：步骤1、收集数据，获取机器人多个服务对象的纯净声音流和混合声音流；步骤2、对语音数据进行标签化，将不同对象的纯净声音流和混合声音流分别设置不同标签；步骤3、搭建RNN神经网络、设定网络结构；该网络有四层，由输入层、两个隐含层、输出层构成。网络结构如图1所示，其中输入层节点个数为i，隐含层节点个数为h，输出层节点个数为o；该循环神经网络(RNN)的输入输出特征是短时傅里叶变换后的能量谱，有两个隐藏层且隐藏层的激活函数选择RELU函数，损失函数定义为：

【技术特征摘要】
1.一种新型服务机器人语音识别方法，其特征在于，包括如下步骤：步骤1、收集数据，获取机器人多个服务对象的纯净声音流和混合声音流；步骤2、对语音数据进行标签化，将不同对象的纯净声音流和混合声音流分别设置不同标签；步骤3、搭建RNN神经网络、设定网络结构；该网络有四层，由输入层、两个隐含层、输出层构成。网络结构如图1所示，其中输入层节点个数为i，隐含层节点个数为h，输出层节点个数为o；该循环神经网络(RNN)的输入输出特征是短时傅里叶变换后的能量谱，有两个隐藏层且隐藏层的激活函数选择RELU函数，损失函数定义为：表示RNN模型在时刻t的输出，y1t、y2t。。。为t时刻的纯净人声，γ12、γ13。。。为给定的常数项；步骤4、对多个服务对象的纯净声音流和混合声音流进行短时傅里叶变换处理，并输入到RNN网络进行训练，具体步骤如下：步骤4.1、初始化RNN神经网络参数，设定网络的连接权值和阈值初始化为[-0.30,+0.30]之间的随机值；并设定权值的学习速率为[0,1]范围之间的点值；步骤4.2、根据k-1时刻对混合声音做短时傅里叶变换处理后得到的振幅谱作为输入数据，由输入层到隐含层节点的权值和隐藏层之间的权值，得到输出层的输出值，并将输出值与期望值y比较，算出损失函数，进而更新k时刻输入层到隐含层节点的权值和隐藏层之间的权值，以及RNN基本单元之间的权值；步骤4.3、设置停止训练的总误差阈值，判断获得的预测值的总误差是否大于设置的总误差阈值，若是，则根据...

【专利技术属性】
技术研发人员：王斐，刘鑫，丁鹏，
申请(专利权)人：东北大学，
类型：发明
国别省市：辽宁,21

全部详细技术资料下载我是这个专利的主人