一种说话人语音识别方法及装置制造方法及图纸

技术编号:19553996 阅读:39 留言:0更新日期:2018-11-24 22:28
本发明专利技术实施例公开一种说话人语音识别方法及装置,其中,方法包括:采集待识别的不同信道的说话人语音;从待识别的不同信道的说话人语音中提取待识别的高层语音级特征;根据待识别的高层语音级特征,获取待识别的身份特征向量;从预先建立的说话人语音检索库中查找与待识别的身份特征向量相似度最高的身份特征向量,将查找到的身份特征向量对应的身份信息作为说话人识别结果。本发明专利技术实施例将不同信道的高层语音级特征变换到一个与通道无关的身份空间中,从而去除通道因素的影响,并在身份空间中,完成对说话人的识别,可以有效地利用有限的语音数据进行说话人的身份确认与识别,较好的适应各种场景应用,识别结果准确性高。

A Speaker Speech Recognition Method and Device

The embodiment of the present invention discloses a speaker speech recognition method and device, in which the method includes: acquiring speaker voice of different channels to be recognized; extracting high-level voice features to be recognized from speaker voice of different channels to be recognized; and acquiring the person to be recognized according to high-level voice features to be recognized. The identity feature vectors with the highest similarity to the identity feature vectors to be identified are searched from the pre-established speaker voice retrieval database, and the identity information corresponding to the identified identity feature vectors is taken as the result of speaker recognition. The embodiment of the present invention transforms high-level voice-level features of different channels into a channel-independent identity space, thereby removing the influence of channel factors, and completes speaker recognition in the identity space, which can effectively utilize limited voice data for speaker identification and recognition, and has better adaptability. The accuracy of recognition results is high in various scenarios.

【技术实现步骤摘要】
一种说话人语音识别方法及装置
本专利技术实施例涉及计算机模式识别
,具体涉及一种说话人语音识别方法及装置。
技术介绍
说话人识别在人机交互、身份认证以及信息检索等方面有着广阔的应用前景,它可以用于声控产业、门禁控制、身份验证、电话语音的侦控、语音数据流中的说话人检测等。另外,随着来自于互联网的数字音频数据的爆炸式增长,说话人识别在语音检索和信息获取中的应用也逐渐受到越来越多的关注。近年来,随着说话人识别技术的发展,基于实验室的,在特定条件下的说话人识别已经取得了较好的效果,但是离实际应用还有一定的差距。说话人识别技术还有一些问题趋待解决,如跨信道问题、背景噪声问题、短语音问题等。其中,相对于跨信道、背景噪声等问题,短语音说话人识别因为无法通过工程技术的手段和现有的语音信号处理方法进行弥补,所以解决的难度更大,成为制约说话人识别实用化的一个瓶颈。目前,在说话人识别中应用最为广泛的说话人识别i-vector系统,其基于的GMM-UBM(混合高斯模型-背景模型模型)和GSV-SVM(高斯均值超向量-支持向量机模型)都是建立在统计模型理论上的,因此要求训练和测试语音必须达到一定的长度,否则,系统性能将大幅度下降。已有很多研究论证了语音长度对识别性能的影响,同时也指出了相对于测试语音长度,训练语音长度对性能的影响更大。并且,目前语音识别领域最新的研究成果,在长语音说话人识别的应用中都取得了不错的效果,但是受语音长度的制约,这些方法都无法在短语音说话人识别中直接应用。语音的高层信息,包括音调、韵律和音长,这些描述说话人讲话方式的特征以及能反映说话人习惯特性的词汇、句法等,都需要大量的训练数据来获取,而在短语音的情况下,由于可获取的这些特征太少无法构成统计特性,所以也不能用于说话人识别。与众多机器学习、模式识别的应用相似,说话人识别系统的性能很容易受到测试数据(即识别语音)的影响,研究表明:测试数据越长,说话人的识别效果越好。在实际的应用场景中,当识别语音长度在2分钟以上时,识别正确率接近99%。但是,语音作为一种日趋流行的人机交互手段,考虑到人机交五的友好性,在很多实际应用场合中都无法保证足够长度的语音信息。鉴于此,如何有效地利用有限的语音数据进行说话人的身份确认与识别,以较好的适应各种场景应用成为目前需要解决的技术问题。
技术实现思路
由于现有方法存在上述问题,本专利技术实施例提出一种说话人语音识别方法及装置。第一方面,本专利技术实施例提出一种说话人语音识别方法,包括:采集待识别的不同信道的说话人语音;从所述待识别的不同信道的说话人语音中提取待识别的高层语音级特征;根据所述待识别的高层语音级特征,获取待识别的身份特征向量;从预先建立的说话人语音检索库中查找与所述待识别的身份特征向量相似度最高的身份特征向量,将查找到的身份特征向量对应的身份信息作为说话人识别结果。可选地,在从预先建立的说话人语音检索库中查找与所述待识别的身份特征向量相似度最高的身份特征向量,将查找到的身份特征向量对应的身份信息作为说话人识别结果之前,所述方法还包括:针对注册集中的每个样本说话人,采集不同信道的说话人语音样本;从所采集的不同信道的说话人语音样本中提取样本说话人的高层语音级特征;根据所述样本说话人的高层语音级特征,获取样本说话人的身份特征向量;将注册集中的所有样本说话人的身份特征向量和注册集中的所有样本说话人的身份信息对应加入预先建立的说话人语音检索库中。可选地,所述从所述待识别的不同信道的说话人语音中提取待识别的高层语音级特征,包括:从所采集的待识别的不同信道的说话人语音中提取待识别的低层帧级特征;利用门控循环单元GRU模型,从所述待识别的低层帧级特征中提取待识别的高层语音级特征;相应地,所述从所采集的不同信道的说话人语音样本中提取样本说话人的高层语音级特征,包括:从所采集的不同信道的说话人语音样本中提取样本说话人的低层帧级特征;利用GRU模型,从所述样本说话人的低层帧级特征中提取样本说话人的高层语音级特征。可选地,所述低层帧级特征为fbank特征。可选地,所述根据所述待识别的高层语音级特征,获取待识别的身份特征向量,包括:利用变换函数,将所述待识别的高层语音级特征转换为待识别的身份特征向量;其中,所述变换函数是通过深度残差网络结构的深度残差网络ResCNN模型学习并采用说话人身份子空间损失函数监督训练优化后得到的;所述变换函数用于将高层语音级特征变换到与通道无关的身份空间,所述身份特征向量为高层语音级特征对应的语音在身份空间中的唯一身份标识;相应地,所述根据所述样本说话人的高层语音级特征,获取样本说话人的身份特征向量,包括:利用变换函数,将所述样本说话人的高层语音级特征转换为样本说话人的身份特征向量。可选地,所述从预先建立的说话人语音检索库中查找与所述待识别的身份特征向量相似度最高的身份特征向量,包括:利用余弦相似度度量方法,从预先建立的说话人语音检索库中查找与所述待识别的身份特征向量相似度最高的身份特征向量。第二方面,本专利技术实施例还提出一种说话人语音识别装置,包括:第一采集模块,用于采集待识别的不同信道的说话人语音;第一提取模块,用于从所述待识别的不同信道的说话人语音中提取待识别的高层语音级特征;第一获取模块,用于根据所述待识别的高层语音级特征,获取待识别的身份特征向量;查找模块,用于从预先建立的说话人语音检索库中查找与所述待识别的身份特征向量相似度最高的身份特征向量,将查找到的身份特征向量对应的身份信息作为说话人识别结果。可选地,所述装置还包括:第二采集模块,用于针对注册集中的每个样本说话人,采集不同信道的说话人语音样本;第二提取模块,用于从所采集的不同信道的说话人语音样本中提取样本说话人的高层语音级特征;第二获取模块,用于根据所述样本说话人的高层语音级特征,获取样本说话人的身份特征向量;加入模块,用于将注册集中的所有样本说话人的身份特征向量和注册集中的所有样本说话人的身份信息对应加入预先建立的说话人语音检索库中。第三方面,本专利技术实施例还提出一种电子设备,包括:处理器、存储器、总线及存储在存储器上并可在处理器上运行的计算机程序;其中,所述处理器,存储器通过所述总线完成相互间的通信;所述处理器执行所述计算机程序时实现上述方法。第四方面,本专利技术实施例提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述方法。由上述技术方案可知,本专利技术实施例提供的一种说话人语音识别方法及装置,通过从采集的待识别的不同信道的说话人语音中提取待识别的高层语音级特征,根据待识别的高层语音级特征,获取待识别的身份特征向量,从预先建立的说话人语音检索库中查找与待识别的身份特征向量相似度最高的身份特征向量,将查找到的身份特征向量对应的身份信息作为说话人识别结果,由此,能够将不同信道的高层语音级特征变换到一个与通道无关的身份空间中,从而去除通道因素的影响,并在身份空间中,完成对说话人的识别,可以有效地利用有限的语音数据进行说话人的身份确认与识别,较好的适应各种场景应用,识别结果准确性高。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单本文档来自技高网
...

【技术保护点】
1.一种说话人语音识别方法,其特征在于,包括:采集待识别的不同信道的说话人语音;从所述待识别的不同信道的说话人语音中提取待识别的高层语音级特征;根据所述待识别的高层语音级特征,获取待识别的身份特征向量;从预先建立的说话人语音检索库中查找与所述待识别的身份特征向量相似度最高的身份特征向量,将查找到的身份特征向量对应的身份信息作为说话人识别结果。

【技术特征摘要】
1.一种说话人语音识别方法,其特征在于,包括:采集待识别的不同信道的说话人语音;从所述待识别的不同信道的说话人语音中提取待识别的高层语音级特征;根据所述待识别的高层语音级特征,获取待识别的身份特征向量;从预先建立的说话人语音检索库中查找与所述待识别的身份特征向量相似度最高的身份特征向量,将查找到的身份特征向量对应的身份信息作为说话人识别结果。2.根据权利要求1所述的方法,其特征在于,在从预先建立的说话人语音检索库中查找与所述待识别的身份特征向量相似度最高的身份特征向量,将查找到的身份特征向量对应的身份信息作为说话人识别结果之前,所述方法还包括:针对注册集中的每个样本说话人,采集不同信道的说话人语音样本;从所采集的不同信道的说话人语音样本中提取样本说话人的高层语音级特征;根据所述样本说话人的高层语音级特征,获取样本说话人的身份特征向量;将注册集中的所有样本说话人的身份特征向量和注册集中的所有样本说话人的身份信息对应加入预先建立的说话人语音检索库中。3.根据权利要求2所述的方法,其特征在于,所述从所述待识别的不同信道的说话人语音中提取待识别的高层语音级特征,包括:从所采集的待识别的不同信道的说话人语音中提取待识别的低层帧级特征;利用门控循环单元GRU模型,从所述待识别的低层帧级特征中提取待识别的高层语音级特征;相应地,所述从所采集的不同信道的说话人语音样本中提取样本说话人的高层语音级特征,包括:从所采集的不同信道的说话人语音样本中提取样本说话人的低层帧级特征;利用GRU模型,从所述样本说话人的低层帧级特征中提取样本说话人的高层语音级特征。4.根据权利要求3所述的方法,其特征在于,所述低层帧级特征为fbank特征。5.根据权利要求2所述的方法,其特征在于,所述根据所述待识别的高层语音级特征,获取待识别的身份特征向量,包括:利用变换函数,将所述待识别的高层语音级特征转换为待识别的身份特征向量;其中,所述变换函数是通过深度残差网络结构的深度残差网络ResCNN模型学习并采用说话人身份子空间损失函数监督训练优化后得到的;所述变换函数用于将...

【专利技术属性】
技术研发人员:李鹏吉瑞芳蔡新元
申请(专利权)人:北京中科智加科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1