一种语音识别方法及装置制造方法及图纸

技术编号:17443110 阅读:29 留言:0更新日期:2018-03-10 16:09
一种语音识别方法及装置;所述语音识别方法包括:利用第一神经网络,从待识别的语音数据中提取含有说话人识别特征的矢量;根据所述含有说话人识别特征的矢量对第二神经网络进行偏置补偿;通过基于所述第二神经网络的声学模型,对所述待识别的语音数据进行语音识别。本申请能够在不引入过多计算量的情况下,有效提升在线说话人自适应中语音识别的性能。

【技术实现步骤摘要】
一种语音识别方法及装置
本专利技术涉及语音识别领域,尤其涉及一种语音识别方法及装置。
技术介绍
目前,说话人无关(SpeakerIndependent,SI)的语音识别系统已经取得了很大的进展,但是由于不同用户之间的差异,导致语音识别系统针对特定用户可能会存在性能下降的问题。说话人相关(SpeakerDependent,SD)的语音识别系统可以解决说话人无关系统的性能下降的问题。但是,说话人相关的语音识别系统需要录入用户大量的语音数据用于训练,这样给用户带来极大的不便利,而且成本高。说话人自适应技术能够在一定程度上弥补说话人无关和说话人相关语音识别系统的缺陷。说话人自适应技术可以将说话人相关的语音特征变换为说话人无关的语音特征,输入说话人无关的声学模型进行识别,或者将说话人无关的声学系统转换为说话人相关的声学系统,再对说话人相关的语音特征进行识别。相比于说话人无关的语音识别系统,说话人自适应技术考虑了具有用户个体差异的语音特征,因而识别性能要更优;相比于说话人相关的识别系统,说话人自适应技术引入了说话人无关系统的先验信息,因而所需的用户的语音数据量大大减少。按照是否事先获得用户的语音数据,可以将说话人自适应技术分为离线式说话人自适应技术和在线式说话人自适应技术。在线式说话人自适应技术可以根据用户当前的语音输入,每隔一定时间(例如,600ms)调整语音识别系统的参数,实现说话人自适应。目前,在线说话人自适应方法的一种解决方案如图1所示,将用户的语音特征、以及针对该用户所提取的i-vector(可区分性向量)进行拼接,将拼接后的特征一起输入深度神经网络(DeepNeuralNetworks,DNN)进行语音识别。其中,i-vector的一种提取过程包括:将一段语音的声学特征输入高斯混合模型,得到均值超矢量,再乘以T矩阵,得到i-vector。当用户说话时,该解决方案可以根据用户说话最开始的一部分提取i-vector,将提取的i-vector用于用户说话的其余部分的语音识别中,从而实现在线说话人自适应。该解决方案主要存在以下问题:在线的说话人自适应技术中,由于i-vector提取过程复杂,需要一定时长的语音数据,所以提取i-vector的语音数据和进行语音识别的语音数据是不同的,进行语音识别时所使用的i-vector的提取对象,是待识别语音数据的前序语音数据;因此,i-vector对于需要识别的语音数据而言不够匹配,因此会影响语音识别的性能。
技术实现思路
本申请提供了一种语音识别方法及装置,能够在不引入过多计算量的情况下,有效提升在线说话人自适应中语音识别的性能。本申请采用如下技术方案。一种语音识别方法,包括:利用第一神经网络,从待识别的语音数据中提取含有说话人识别特征的矢量;根据所述含有说话人识别特征的矢量对第二神经网络进行偏置补偿;通过基于所述第二神经网络的声学模型,对所述待识别的语音数据进行语音识别。其中,所述根据所述含有说话人识别特征的矢量对第二神经网络进行偏置补偿可以包括:将所述含有说话人识别特征的矢量乘以权重矩阵,将乘积作为所述第二神经网络的偏置项。其中,所述第一神经网络、所述第二神经网络、所述权重矩阵可以通过训练确定;所述方法还可以包括:分别训练所述第一神经网络、所述第二神经网络;训练完成后,将所述第一神经网络、所述权重矩阵和所述第二神经网络作为一个整体进行训练。其中,所述将所述第一神经网络、所述权重矩阵和所述第二神经网络作为一个整体进行训练后还可以包括:对所述第一神经网络、所述第二神经网络及所述权重矩阵进行初始化;根据预定的目标准则使用误差反向传播算法更新所述权重矩阵;根据预定的目标准则使用误差反向传播算法更新所述第二神经网络和连接矩阵。其中,所述说话人识别特征可以至少包括:说话人声纹信息。其中,所述根据所述含有说话人识别特征的矢量对第二神经网络进行偏置补偿可以包括:根据所述含有说话人识别特征的矢量,对所述第二神经网络中除了输入层以外的全部或部分层进行偏置补偿;其中,所述含有说话人识别特征的矢量是所述第一神经网络中最后一个隐藏层的输出矢量。其中,所述根据含有说话人识别特征的矢量,对所述第二神经网络中除了输入层以外的全部或部分层进行偏置补偿可以包括:将所述第一神经网络最后一个隐藏层中的神经元节点输出的含有说话人识别特征的矢量,传输给所述第二神经网络中除了输入层以外的全部或部分层所对应的偏置节点。其中,所述第一神经网络可以为递归神经网络。其中,所述待识别的语音数据可以是采集到的原始语音数据,或者可以是针对采集到的原始语音数据所提取出的语音特征。其中,所述说话人识别特征可以与不同用户一一对应,或者可以与不同用户的聚类一一对应。一种语音识别方法,包括:采集语音数据;将所采集的语音数据输入第一神经网络,提取出含有说话人识别特征的矢量;根据所述含有说话人识别特征的矢量对第二神经网络进行偏置补偿;将所采集的语音数据输入所述第二神经网络,进行语音识别。其中,所述根据所述含有说话人识别特征的矢量对第二神经网络进行偏置补偿可以包括:将所述含有说话人识别特征的矢量乘以权重矩阵,将乘积作为所述第二神经网络的偏置项。其中,所述说话人识别特征可以至少包括:说话人声纹信息。其中,所述第一神经网络可以为递归神经网络。其中,所述根据含有说话人识别特征的矢量对第二神经网络进行偏置补偿可以包括:将所述第一神经网络最后一个隐藏层中的神经元节点输出的含有说话人识别特征的矢量,传输给所述第二神经网络中除了输入层以外的全部或部分层所对应的偏置节点。一种语音识别装置,包括:处理器和存储器;所述存储器用于存储用于进行语音识别的程序;所述用于进行语音识别的程序在被所述处理器读取执行时,执行以下操作:利用第一神经网络,从待识别的语音数据中提取含有说话人识别特征的矢量;根据所述含有说话人识别特征的矢量对第二神经网络进行偏置补偿;通过基于所述第二神经网络的声学模型,对所述待识别的语音数据进行语音识别。其中,所述根据所述含有说话人识别特征的矢量对第二神经网络进行偏置补偿可以包括:将所述含有说话人识别特征的矢量乘以权重矩阵,将乘积作为所述第二神经网络的偏置项。其中,所述说话人识别特征可以至少包括:说话人声纹信息。其中,所述第一神经网络可以为递归神经网络。其中,所述根据含有说话人识别特征的矢量对第二神经网络进行偏置补偿可以包括:将所述第一神经网络最后一个隐藏层中的神经元节点输出的含有说话人识别特征的矢量,传输给所述第二神经网络中除了输入层以外的全部或部分层所对应的偏置节点。一种语音识别装置,包括:处理器和存储器;所述存储器用于存储用于进行语音识别的程序;所述用于进行语音识别的程序在被所述处理器读取执行时,执行以下操作:采集语音数据;将所采集的语音数据输入第一神经网络,提取出含有说话人识别特征的矢量;根据所述含有说话人识别特征的矢量对第二神经网络进行偏置补偿;将所采集的语音数据输入所述第二神经网络,进行语音识别。其中,所述根据所述含有说话人识别特征的矢量对第二神经网络进行偏置补偿可以包括:将所述含有说话人识别特征的矢量乘以权重矩阵,将乘积作为所述第二神经网络的偏置项。其中,所述说话人识别特征可以至少包括:说话人声纹信息。其中,所述第一神经网络可以为本文档来自技高网
...
一种语音识别方法及装置

【技术保护点】
一种语音识别方法,包括:利用第一神经网络,从待识别的语音数据中提取含有说话人识别特征的矢量;根据所述含有说话人识别特征的矢量对第二神经网络进行偏置补偿;通过基于所述第二神经网络的声学模型,对所述待识别的语音数据进行语音识别。

【技术特征摘要】
1.一种语音识别方法,包括:利用第一神经网络,从待识别的语音数据中提取含有说话人识别特征的矢量;根据所述含有说话人识别特征的矢量对第二神经网络进行偏置补偿;通过基于所述第二神经网络的声学模型,对所述待识别的语音数据进行语音识别。2.如权利要求1所述的语音识别方法,其特征在于,所述根据所述含有说话人识别特征的矢量对第二神经网络进行偏置补偿包括:将所述含有说话人识别特征的矢量乘以权重矩阵,将乘积作为所述第二神经网络的偏置项。3.如权利要求2所述的语音识别方法,其特征在于:所述第一神经网络、所述第二神经网络、所述权重矩阵通过训练确定;所述方法还包括:分别训练所述第一神经网络、所述第二神经网络;训练完成后,将所述第一神经网络、所述权重矩阵和所述第二神经网络作为一个整体进行训练。4.如权利要求3所述的语音识别方法,其特征在于,所述将所述第一神经网络、所述权重矩阵和所述第二神经网络作为一个整体进行训练后还包括:对所述第一神经网络、所述第二神经网络及所述权重矩阵进行初始化;根据预定的目标准则使用误差反向传播算法更新所述权重矩阵;根据预定的目标准则使用误差反向传播算法更新所述第二神经网络和连接矩阵。5.如权利要求1所述的语音识别方法,其特征在于,所述说话人识别特征至少包括:说话人声纹信息。6.如权利要求1所述的语音识别方法,其特征在于,所述根据所述含有说话人识别特征的矢量对第二神经网络进行偏置补偿包括:根据所述含有说话人识别特征的矢量,对所述第二神经网络中除了输入层以外的全部或部分层进行偏置补偿;其中,所述含有说话人识别特征的矢量是所述第一神经网络中最后一个隐藏层的输出矢量。7.如权利要求6所述的语音识别方法,其特征在于,所述根据含有说话人识别特征的矢量,对所述第二神经网络中除了输入层以外的全部或部分层进行偏置补偿包括:将所述第一神经网络最后一个隐藏层中的神经元节点输出的含有说话人识别特征的矢量,传输给所述第二神经网络中除了输入层以外的全部或部分层所对应的偏置节点。8.如权利要求1所述的语音识别方法,其特征在于:所述第一神经网络为递归神经网络。9.如权利要求1所述的语音识别方法,其特征在于:所述待识别的语音数据是采集到的原始语音数据,或者是针对采集到的原始语音数据所提取出的语音特征。10.如权利要求1所述的语音识别方法,其特征在于:所述说话人识别特征与不同用户一一对应,或者与不同用户的聚类一一对应。11.一种语音识别方法,包括:采集语音数据;将所采集的语音数据输入第一神经网络,提取出含有说话人识别特征的矢量;根据所述含有说话人识别特征的矢量对第二神经网络进行偏置补偿;将所采集的语音数据输入所述第二神经网络,进行语音识别。12.如权利要求11所述的语音识别方法,其特征在于,所述根据所述含有说话人识别特征的矢量对第二神经网络进行偏置补偿包括:将所述含有说话人识别特征的矢量乘以权重矩阵,将乘积作为所述第二神经网络的偏置项。13.如权利要求11所述的语音识别方法,其特征在于,所述说话人识别特征至少包括:说话人声纹信息。14.如权利要求11所述的语音识别方法,其特征在于:所述第一神经网络为递归神经网络。15.如权利要求11所述的语音识别方法,其特征在于,所述根据含有说话人识别特征的矢量对第二神经网络进行偏置...

【专利技术属性】
技术研发人员:黄智颖薛少飞鄢志杰
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1