一种语音识别方法及装置制造方法及图纸

技术编号：17443110 阅读：29 留言：0更新日期：2018-03-10 16:09

一种语音识别方法及装置；所述语音识别方法包括：利用第一神经网络，从待识别的语音数据中提取含有说话人识别特征的矢量；根据所述含有说话人识别特征的矢量对第二神经网络进行偏置补偿；通过基于所述第二神经网络的声学模型，对所述待识别的语音数据进行语音识别。本申请能够在不引入过多计算量的情况下，有效提升在线说话人自适应中语音识别的性能。

全部详细技术资料下载

【技术实现步骤摘要】
一种语音识别方法及装置
本专利技术涉及语音识别领域，尤其涉及一种语音识别方法及装置。
技术介绍
目前，说话人无关(SpeakerIndependent，SI)的语音识别系统已经取得了很大的进展，但是由于不同用户之间的差异，导致语音识别系统针对特定用户可能会存在性能下降的问题。说话人相关(SpeakerDependent，SD)的语音识别系统可以解决说话人无关系统的性能下降的问题。但是，说话人相关的语音识别系统需要录入用户大量的语音数据用于训练，这样给用户带来极大的不便利，而且成本高。说话人自适应技术能够在一定程度上弥补说话人无关和说话人相关语音识别系统的缺陷。说话人自适应技术可以将说话人相关的语音特征变换为说话人无关的语音特征，输入说话人无关的声学模型进行识别，或者将说话人无关的声学系统转换为说话人相关的声学系统，再对说话人相关的语音特征进行识别。相比于说话人无关的语音识别系统，说话人自适应技术考虑了具有用户个体差异的语音特征，因而识别性能要更优；相比于说话人相关的识别系统，说话人自适应技术引入了说话人无关系统的先验信息，因而所需的用户的语音数据量大大减少。按照是否事先获得用户的语音数据，可以将说话人自适应技术分为离线式说话人自适应技术和在线式说话人自适应技术。在线式说话人自适应技术可以根据用户当前的语音输入，每隔一定时间(例如，600ms)调整语音识别系统的参数，实现说话人自适应。目前，在线说话人自适应方法的一种解决方案如图1所示，将用户的语音特征、以及针对该用户所提取的i-vector(可区分性向量)进行拼接，将拼接后的特征一起输入深度神经网络(Dee...
一种语音识别方法及装置

【技术保护点】
一种语音识别方法，包括：利用第一神经网络，从待识别的语音数据中提取含有说话人识别特征的矢量；根据所述含有说话人识别特征的矢量对第二神经网络进行偏置补偿；通过基于所述第二神经网络的声学模型，对所述待识别的语音数据进行语音识别。

【技术特征摘要】
1.一种语音识别方法，包括：利用第一神经网络，从待识别的语音数据中提取含有说话人识别特征的矢量；根据所述含有说话人识别特征的矢量对第二神经网络进行偏置补偿；通过基于所述第二神经网络的声学模型，对所述待识别的语音数据进行语音识别。2.如权利要求1所述的语音识别方法，其特征在于，所述根据所述含有说话人识别特征的矢量对第二神经网络进行偏置补偿包括：将所述含有说话人识别特征的矢量乘以权重矩阵，将乘积作为所述第二神经网络的偏置项。3.如权利要求2所述的语音识别方法，其特征在于：所述第一神经网络、所述第二神经网络、所述权重矩阵通过训练确定；所述方法还包括：分别训练所述第一神经网络、所述第二神经网络；训练完成后，将所述第一神经网络、所述权重矩阵和所述第二神经网络作为一个整体进行训练。4.如权利要求3所述的语音识别方法，其特征在于，所述将所述第一神经网络、所述权重矩阵和所述第二神经网络作为一个整体进行训练后还包括：对所述第一神经网络、所述第二神经网络及所述权重矩阵进行初始化；根据预定的目标准则使用误差反向传播算法更新所述权重矩阵；根据预定的目标准则使用误差反向传播算法更新所述第二神经网络和连接矩阵。5.如权利要求1所述的语音识别方法，其特征在于，所述说话人识别特征至少包括：说话人声纹信息。6.如权利要求1所述的语音识别方法，其特征在于，所述根据所述含有说话人识别特征的矢量对第二神经网络进行偏置补偿包括：根据所述含有说话人识别特征的矢量，对所述第二神经网络中除了输入层以外的全部或部分层进行偏置补偿；其中，所述含有说话人识别特征的矢量是所述第一神经网络中最后一个隐藏层的输出矢量。7.如权利要求6所述的语音识别方法，其特征在于，所述根据含有说话人识别特征的矢量，对所述第二神经网络中除了输入层以外的全部或部分层进行偏置补偿包括：将所述第一神经网络最后一个隐藏层中的神经元节点输出的含有说话人识别特征的矢量，传输给所述第二神经网络中除了输入层以外的全部或部分层所对应的偏置节点。8.如权利要求1所述的语音识别方法，其特征在于：所述第一神经网络为递归神经网络。9.如权利要求1所述的语音识别方法，其特征在于：所述待识别的语音数据是采集到的原始语音数据，或者是针对采集到的原始语音数据所提取出的语音特征。10.如权利要求1所述的语音识别方法，其特征在于：所述说话人识别特征与不同用户一一对应，或者与不同用户的聚类一一对应。11.一种语音识别方法，包括：采集语音数据；将所采集的语音数据输入第一神经网络，提取出含有说话人识别特征的矢量；根据所述含有说话人识别特征的矢量对第二神经网络进行偏置补偿；将所采集的语音数据输入所述第二神经网络，进行语音识别。12.如权利要求11所述的语音识别方法，其特征在于，所述根据所述含有说话人识别特征的矢量对第二神经网络进行偏置补偿包括：将所述含有说话人识别特征的矢量乘以权重矩阵，将乘积作为所述第二神经网络的偏置项。13.如权利要求11所述的语音识别方法，其特征在于，所述说话人识别特征至少包括：说话人声纹信息。14.如权利要求11所述的语音识别方法，其特征在于：所述第一神经网络为递归神经网络。15.如权利要求11所述的语音识别方法，其特征在于，所述根据含有说话人识别特征的矢量对第二神经网络进行偏置...

【专利技术属性】
技术研发人员：黄智颖，薛少飞，鄢志杰，
申请(专利权)人：阿里巴巴集团控股有限公司，
类型：发明
国别省市：开曼群岛,KY

全部详细技术资料下载我是这个专利的主人