语音识别方法和装置制造方法及图纸

技术编号:15507843 阅读:168 留言:0更新日期:2017-06-04 02:22
本申请公开了语音识别方法和装置。该方法的一具体实施方式包括:响应于检测到传声器接收到包含干扰音信号的语音信号,对语音信号进行高通滤波处理;消除经高通滤波处理后的语音信号中的干扰音信号;对消除干扰音信号后的语音信号进行自动增益控制处理,得到目标语音信号;从目标语音信号中提取特征向量,并将特征向量输入至预先训练的声学模型,得到与目标语音信号匹配的语音识别结果,其中,声学模型用于表征特征向量与语音识别结果的对应关系。该实施方式提高了语音识别的成功率。

Speech recognition method and apparatus

The present invention discloses a speech recognition method and apparatus. One embodiment of the method includes: receiving a response to the speech signal contains interference sound signal to the detected microphone, the voice signal processing of high pass filtering to eliminate the noise; signal processing of high pass filtering after the speech signal; to eliminate the noise signal of the automatic gain control processing, get the target speech signal; feature vectors are extracted from the target speech signal, and the feature vector is input to the acoustic model training in advance, to get the speech recognition results, matched with the target speech signal the corresponding relationship between the acoustic model to characterize the feature vector and the speech recognition results. The implementation improves the success rate of speech recognition.

【技术实现步骤摘要】
语音识别方法和装置
本申请涉及计算机
,具体涉及互联网
,尤其涉及语音识别方法和装置。
技术介绍
随着计算机技术的发展,语音识别技术被应用于越来越多的领域,如智能家居、工业控制、终端设备的语音交互系统等。利用语音识别技术可以使信息的处理和获取更加便捷,从而提高用户的工作效率。然而,现有的语音识别方式通常将待识别的语音信号输入至基于纯净语音信号训练所得的声学模型,进而得到语音识别结果。由于待识别的语音信号通常与纯净语音信号存在较大差异,因而,这种语音识别方式存在着识别成功率较低的问题。
技术实现思路
本申请的目的在于提出一种改进的语音识别方法和装置,来解决以上
技术介绍
部分提到的技术问题。第一方面,本申请提供了一种语音识别方法,上述方法包括:响应于检测到上述传声器接收到包含干扰音信号的语音信号,对上述语音信号进行高通滤波处理;消除经高通滤波处理后的语音信号中的干扰音信号;对消除干扰音信号后的语音信号进行自动增益控制处理,得到目标语音信号;从上述目标语音信号中提取特征向量,并将上述特征向量输入至预先训练的声学模型,得到与上述目标语音信号匹配的语音识别结果,其中,上述声学模型用于表征特征向量与语音识别结果的对应关系。在一些实施例中,上述终端设备还安装有扬声器,上述干扰音信号由回声信号和噪音信号组成,其中,上述回声信号是由上述扬声器发送并传送至上述传声器的声音信号。在一些实施例中,上述消除上述语音信号中的上述干扰音信号,得到目标语音信号,包括:利用时延估计算法对经高通滤波处理后的语音信号进行自适应滤波处理,消除回声信号;利用噪声抑制算法消除经自适应滤波处理后的语音信号中的噪音信号。在一些实施例中,上述响应于确定上述传声器接收到语音信号之前,上述方法还包括:对预先获取的训练样本进行预处理,生成目标训练样本,其中,上述目标训练样本包括语音标识;从上述目标训练样本中提取特征向量;基于卷积神经网络、深度神经网络和受限波尔兹曼机,将从上述目标训练样本中提取的特征向量作为输入,上述语音标识作为输出,训练得到上述声学模型。在一些实施例中,上述对预先获取的训练样本进行预处理,生成目标训练样本,包括:对预先获取的训练样本进行高通滤波处理;对经高通滤波处理后的训练样本依次进行回声消除和噪声抑制处理;对经噪声抑制处理后的训练样本进行自动增益控制处理,生成目标训练样本。在一些实施例中,上述响应于确定上述传声器接收到语音信号之前,上述方法还包括:利用聚类算法对上述声学模型输出的语音标识进行聚类,将聚类后的语音标识确定为与上述训练样本匹配的语音识别结果。第二方面,本申请提供了一种语音识别装置,上述装置包括:第一处理单元,配置用于响应于检测到上述传声器接收到包含干扰音信号的语音信号,对上述语音信号进行高通滤波处理;消除单元,配置用于消除经高通滤波处理后的语音信号中的干扰音信号;第二处理单元,配置用于对消除干扰音信号后的语音信号进行自动增益控制处理,得到目标语音信号;输入单元,配置用于从上述目标语音信号中提取特征向量,并将上述特征向量输入至预先训练的声学模型,得到与上述目标语音信号匹配的语音识别结果,其中,上述声学模型用于表征特征向量与语音识别结果的对应关系。在一些实施例中,上述终端设备还安装有扬声器,上述干扰音信号由回声信号和噪音信号组成,其中,上述回声信号是由上述扬声器发送并传送至上述传声器的声音信号。在一些实施例中,上述消除单元包括:第一消除模块,配置用于利用时延估计算法对经高通滤波处理后的语音信号进行自适应滤波处理,消除回声信号;第二消除模块,配置用于利用噪声抑制算法消除经自适应滤波处理后的语音信号中的噪音信号。在一些实施例中,上述装置还包括:预处理单元,配置用于对预先获取的训练样本进行预处理,生成目标训练样本,其中,上述目标训练样本包括语音标识;提取单元,配置用于从上述目标训练样本中提取特征向量;训练单元,配置用于基于卷积神经网络、深度神经网络和受限波尔兹曼机,将从上述目标训练样本中提取的特征向量作为输入,上述语音标识作为输出,训练得到上述声学模型。在一些实施例中,上述预处理单元包括:第一处理模块,配置用于对预先获取的训练样本进行高通滤波处理;第二处理模块,配置用于对经高通滤波处理后的训练样本依次进行回声消除和噪声抑制处理;第三处理模块,配置用于对经噪声抑制处理后的训练样本进行自动增益控制处理,生成目标训练样本。在一些实施例中,上述装置还包括:聚类单元,配置用于利用聚类算法对上述声学模型输出的语音标识进行聚类,将聚类后的语音标识确定为与上述训练样本匹配的语音识别结果。本申请提供的语音识别方法和装置,通过对语音信号依次进行高通滤波处理、消除干扰音信号、自动增益控制处理,以便得到目标语音信号,之后从目标语音信号中提取特征向量,并将特征向量输入至预先训练的声学模型,得到与目标语音信号匹配的语音识别结果,从而提高了语音识别的成功率。附图说明通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:图1是本申请可以应用于其中的示例性系统架构图;图2是根据本申请的语音识别方法的一个实施例的流程图;图3是根据本申请的语音识别方法的一个应用场景的示意图;图4是根据本申请的语音识别方法的又一个实施例的流程图;图5是根据本申请的语音识别装置的一个实施例的结构示意图;图6是适于用来实现本申请实施例的终端设备的计算机系统的结构示意图。具体实施方式下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关专利技术,而非对该专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关专利技术相关的部分。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。图1示出了可以应用本申请的语音识别方法或语音识别装置的示例性系统架构100。如图1所示,系统架构100可以包括终端设备101、102、103和服务器104。另外,上述系统架构100还可以包含用以在终端设备101、102、103和服务器104之间提供通信链路介质的网络。其中,网络可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。终端设备101、102、103上可以安装有各种电子器件,如扬声器、传声器、摄像头等,也可以安装有各种通讯客户端应用,例如语音输入类应用、网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。终端设备101、102、103可以检测所安装的传声器所接收语音信号,并对检测到的语音信号进行高通滤波、干扰音消除、自动增益控制等处理,并通过网络与服务器104交互,进而对处理后的语音信号进行识别。其中,上述服务器104可以用于存储声学模型。终端设备101、102、103可以是安装有传声器的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(MovingPictureExpertsGroupAudioLayerIII,动态影像专家压缩标准音频层面3)、MP4(MovingPictureExpertsGroupAudioLayerIV,动态影像专家压缩标准音频层面4)播放器本文档来自技高网...
语音识别方法和装置

【技术保护点】
一种用于终端设备的语音识别方法,其特征在于,所述终端设备安装有传声器,所述方法包括:响应于检测到所述传声器接收到包含干扰音信号的语音信号,对所述语音信号进行高通滤波处理;消除经高通滤波处理后的语音信号中的干扰音信号;对消除干扰音信号后的语音信号进行自动增益控制处理,得到目标语音信号;从所述目标语音信号中提取特征向量,并将所述特征向量输入至预先训练的声学模型,得到与所述目标语音信号匹配的语音识别结果,其中,所述声学模型用于表征特征向量与语音识别结果的对应关系。

【技术特征摘要】
1.一种用于终端设备的语音识别方法,其特征在于,所述终端设备安装有传声器,所述方法包括:响应于检测到所述传声器接收到包含干扰音信号的语音信号,对所述语音信号进行高通滤波处理;消除经高通滤波处理后的语音信号中的干扰音信号;对消除干扰音信号后的语音信号进行自动增益控制处理,得到目标语音信号;从所述目标语音信号中提取特征向量,并将所述特征向量输入至预先训练的声学模型,得到与所述目标语音信号匹配的语音识别结果,其中,所述声学模型用于表征特征向量与语音识别结果的对应关系。2.根据权利要求1所述的语音识别方法,其特征在于,所述终端设备还安装有扬声器,所述干扰音信号由回声信号和噪音信号组成,其中,所述回声信号是由所述扬声器发送并传送至所述传声器的声音信号。3.根据权利要求2所述的语音识别方法,其特征在于,所述消除所述语音信号中的所述干扰音信号,得到目标语音信号,包括:利用时延估计算法对经高通滤波处理后的语音信号进行自适应滤波处理,消除回声信号;利用噪声抑制算法消除经自适应滤波处理后的语音信号中的噪音信号。4.根据权利要求1所述的语音识别方法,其特征在于,所述响应于确定所述传声器接收到语音信号之前,所述方法还包括:对预先获取的训练样本进行预处理,生成目标训练样本,其中,所述目标训练样本包括语音标识;从所述目标训练样本中提取特征向量;基于卷积神经网络、深度神经网络和受限波尔兹曼机,将从所述目标训练样本中提取的特征向量作为输入,所述语音标识作为输出,训练得到所述声学模型。5.根据权利要求4所述的语音识别方法,其特征在于,所述对预先获取的训练样本进行预处理,生成目标训练样本,包括:对预先获取的训练样本进行高通滤波处理;对经高通滤波处理后的训练样本依次进行回声消除和噪声抑制处理;对经噪声抑制处理后的训练样本进行自动增益控制处理,生成目标训练样本。6.根据权利要求4所述的语音识别方法,其特征在于,所述响应于确定所述传声器接收到语音信号之前,所述方法还包括:利用聚类算法对所述声学模型输出的语音标识进行聚类,将聚类后的语音标识确定为与所述训练样本匹配的语音识别结果。7.一种用于终端设备的语音识别装置,其特征在于,所...

【专利技术属性】
技术研发人员:崔玮玮孙珏
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1