The embodiment of the present invention discloses a speaker speech recognition method and device, in which the method includes: acquiring speaker voice of different channels to be recognized; extracting high-level voice features to be recognized from speaker voice of different channels to be recognized; and acquiring the person to be recognized according to high-level voice features to be recognized. The identity feature vectors with the highest similarity to the identity feature vectors to be identified are searched from the pre-established speaker voice retrieval database, and the identity information corresponding to the identified identity feature vectors is taken as the result of speaker recognition. The embodiment of the present invention transforms high-level voice-level features of different channels into a channel-independent identity space, thereby removing the influence of channel factors, and completes speaker recognition in the identity space, which can effectively utilize limited voice data for speaker identification and recognition, and has better adaptability. The accuracy of recognition results is high in various scenarios.
【技术实现步骤摘要】
一种说话人语音识别方法及装置
本专利技术实施例涉及计算机模式识别
,具体涉及一种说话人语音识别方法及装置。
技术介绍
说话人识别在人机交互、身份认证以及信息检索等方面有着广阔的应用前景,它可以用于声控产业、门禁控制、身份验证、电话语音的侦控、语音数据流中的说话人检测等。另外,随着来自于互联网的数字音频数据的爆炸式增长,说话人识别在语音检索和信息获取中的应用也逐渐受到越来越多的关注。近年来,随着说话人识别技术的发展,基于实验室的,在特定条件下的说话人识别已经取得了较好的效果,但是离实际应用还有一定的差距。说话人识别技术还有一些问题趋待解决,如跨信道问题、背景噪声问题、短语音问题等。其中,相对于跨信道、背景噪声等问题,短语音说话人识别因为无法通过工程技术的手段和现有的语音信号处理方法进行弥补,所以解决的难度更大,成为制约说话人识别实用化的一个瓶颈。目前,在说话人识别中应用最为广泛的说话人识别i-vector系统,其基于的GMM-UBM(混合高斯模型-背景模型模型)和GSV-SVM(高斯均值超向量-支持向量机模型)都是建立在统计模型理论上的,因此要求训练和测试语音必须达到一定的长度,否则,系统性能将大幅度下降。已有很多研究论证了语音长度对识别性能的影响,同时也指出了相对于测试语音长度,训练语音长度对性能的影响更大。并且,目前语音识别领域最新的研究成果,在长语音说话人识别的应用中都取得了不错的效果,但是受语音长度的制约,这些方法都无法在短语音说话人识别中直接应用。语音的高层信息,包括音调、韵律和音长,这些描述说话人讲话方式的特征以及能反映说话人习惯特性的词汇 ...
【技术保护点】
1.一种说话人语音识别方法,其特征在于,包括:采集待识别的不同信道的说话人语音;从所述待识别的不同信道的说话人语音中提取待识别的高层语音级特征;根据所述待识别的高层语音级特征,获取待识别的身份特征向量;从预先建立的说话人语音检索库中查找与所述待识别的身份特征向量相似度最高的身份特征向量,将查找到的身份特征向量对应的身份信息作为说话人识别结果。
【技术特征摘要】
1.一种说话人语音识别方法,其特征在于,包括:采集待识别的不同信道的说话人语音;从所述待识别的不同信道的说话人语音中提取待识别的高层语音级特征;根据所述待识别的高层语音级特征,获取待识别的身份特征向量;从预先建立的说话人语音检索库中查找与所述待识别的身份特征向量相似度最高的身份特征向量,将查找到的身份特征向量对应的身份信息作为说话人识别结果。2.根据权利要求1所述的方法,其特征在于,在从预先建立的说话人语音检索库中查找与所述待识别的身份特征向量相似度最高的身份特征向量,将查找到的身份特征向量对应的身份信息作为说话人识别结果之前,所述方法还包括:针对注册集中的每个样本说话人,采集不同信道的说话人语音样本;从所采集的不同信道的说话人语音样本中提取样本说话人的高层语音级特征;根据所述样本说话人的高层语音级特征,获取样本说话人的身份特征向量;将注册集中的所有样本说话人的身份特征向量和注册集中的所有样本说话人的身份信息对应加入预先建立的说话人语音检索库中。3.根据权利要求2所述的方法,其特征在于,所述从所述待识别的不同信道的说话人语音中提取待识别的高层语音级特征,包括:从所采集的待识别的不同信道的说话人语音中提取待识别的低层帧级特征;利用门控循环单元GRU模型,从所述待识别的低层帧级特征中提取待识别的高层语音级特征;相应地,所述从所采集的不同信道的说话人语音样本中提取样本说话人的高层语音级特征,包括:从所采集的不同信道的说话人语音样本中提取样本说话人的低层帧级特征;利用GRU模型,从所述样本说话人的低层帧级特征中提取样本说话人的高层语音级特征。4.根据权利要求3所述的方法,其特征在于,所述低层帧级特征为fbank特征。5.根据权利要求2所述的方法,其特征在于,所述根据所述待识别的高层语音级特征,获取待识别的身份特征向量,包括:利用变换函数,将所述待识别的高层语音级特征转换为待识别的身份特征向量;其中,所述变换函数是通过深度残差网络结构的深度残差网络ResCNN模型学习并采用说话人身份子空间损失函数监督训练优化后得到的;所述变换函数用于将...
【专利技术属性】
技术研发人员:李鹏,吉瑞芳,蔡新元,
申请(专利权)人:北京中科智加科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。