多语种混说语音的语种识别方法及装置制造方法及图纸

技术编号:29529137 阅读:20 留言:0更新日期:2021-08-03 15:16
本发明专利技术实施例提供一种多语种混说语音的语种识别方法及装置,所述方法包括:对待识别多语种混说语音数据进行端点检测,得到多帧语音状态信息;将所有的语音状态信息输入至语种识别模型,输出所述待识别多语种混说语音数据中每一帧语音状态信息所属的语种;其中,所述语种识别模型是基于多语种混说语音样本以及预先确定的多语种混说语音样本中每一帧语音状态信息所属的语种进行训练后得到。本发明专利技术实施例提供的多语种混说语音的语种识别方法及装置,通过缩减人工预处理和后续处理,以原始语音波形作为输入,将特征提取和分类建立一体化结构模型,尽可能简化模型从原始输入到最终输出的步骤,增加模型的整体契合度,提高了语种识别的准确率。

【技术实现步骤摘要】
多语种混说语音的语种识别方法及装置
本专利技术涉及语音识别
,尤其涉及一种多语种混说语音的语种识别方法及装置。
技术介绍
语种识别是通过计算机识别出一段语音段所属语言的过程。在工作和日常生活中,多语种混说的现象越来越常见,而这给单一语言的语音识别带了巨大困难。现有技术中,语种识别主要分为三个过程,首先根据语音信号进行特征提取,然后建立语种识别模型,最后是对测试语音进行语种判决。传统的语种识别系统包括基于HMM等机器学习的语种识别、基于音素识别器的语种识别、基于底层声学特征的语种识别等。但是,现有技术中的语种识别局限于声学的研究和建模的不足,导致语种识别系统的复杂较高,并且语种识别的准确率有待提高。
技术实现思路
本专利技术实施例提供一种多语种混说语音的语种识别方法及装置,用于解决现有技术中的上述技术问题。为了解决上述技术问题,一方面,本专利技术实施例提供一种多语种混说语音的语种识别方法,包括:对待识别多语种混说语音数据进行端点检测,得到多帧语音状态信息;将所有的语音状态信息输入至语种识别模型,输出所述待识别多语种混说语音数据中每一帧语音状态信息所属的语种;其中,所述语种识别模型是基于多语种混说语音样本以及预先确定的多语种混说语音样本中每一帧语音状态信息所属的语种进行训练后得到。进一步地,将所有的语音状态信息输入至语种识别模型,输出所述待识别多语种混说语音数据中每一帧语音状态信息所属的语种,具体包括:将所有的语音状态信息输入至所述语种识别模型中的编码端,输出每一帧语音状态信息的高维语音特征;将所有的高维语音特征输入至所述语种识别模型中的解码端,输出每一帧语音状态信息所属的语种。进一步地,所述编码端由卷积层和全连接层组成,所述编码端的激活函数为线性整流函数。进一步地,所述编码端中的卷积层的层数为四层;所述编码端中的全连接层的层数为两层。进一步地,所述解码端为注意力机制。进一步地,将所有的高维语音特征输入至所述语种识别模型中的解码端,输出每一帧语音状态信息所属的语种,具体包括:将所有的高维语音特征输入至所述解码端的Attend函数,输出每一语音状态信息的归一化权重;根据所有的高维语音特征和所有的归一化权重,确定注意力向量;基于所述注意力向量,利用Softmax函数确定每一帧语音状态信息所属的语种。进一步地,利用如下公式确定所述注意力向量:其中,c为注意力向量,T为语音状态信息的帧数,αt为第t帧语音状态信息的归一化权重,ht为第t帧语音状态信息的高维语音特征。另一方面,本专利技术实施例提供一种多语种混说语音的识别方法,包括:采用上述的多语种混说语音的语种识别方法,对待识别多语种混说语音数据进行语种识别,确定每一帧语音状态信息所属的语种;分别将每一帧语音状态信息,输入至相应的语音识别模型,输出每一帧语音状态信息的文字识别结果。再一方面,本专利技术实施例提供一种多语种混说语音的语种识别装置,包括:端点检测模块,用于对待识别多语种混说语音数据进行端点检测,得到多帧语音状态信息;语种识别模块,用于将所有的语音状态信息输入至语种识别模型,输出所述待识别多语种混说语音数据中每一帧语音状态信息所属的语种;其中,所述语种识别模型是基于多语种混说语音样本以及预先确定的多语种混说语音样本中每一帧语音状态信息所属的语种进行训练后得到。又一方面,本专利技术实施例提供一种电子设备,包括:存储器、处理器,以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现上述方法的步骤。本专利技术实施例提供的多语种混说语音的语种识别方法及装置,通过缩减人工预处理和后续处理,以原始语音波形作为输入,将特征提取和分类建立一体化结构模型,尽可能简化模型从原始输入到最终输出的步骤,增加模型的整体契合度,提高了语种识别的准确率。附图说明图1为本专利技术实施例提供的多语种混说语音的语种识别方法示意图;图2为本专利技术实施例提供的语音端点检测预处理示意图;图3为本专利技术实施例提供的语种识别模型的结构示意图;图4为本专利技术实施例提供的多语种混说语音的语种识别装置示意图;图5为本专利技术实施例提供的电子设备的结构示意图。具体实施方式为了使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。语种识别是通过计算机识别出一段语音段所属语言的过程。随着全球的发展日趋国际化,英语作为一门国际语言,其使用范围极为广泛。在工作和日常生活中,中英混说的现象越来越常见,而这给单一语言的语音识别带了巨大困难。为了把不同语言的语音送入对应的语音识别系统,首先需要对不同语言的语音进行分类识别。语种识别技术的发展经历以下几个阶段:首先是隐马尔可夫模型(HiddenMarkovModel,HMM)的问世,被广泛地应用到了各种统计学的模型中,出现了基于HMM的语种识别系统;在此之后人们对声学进行了研究,出现了基于音素识别器的语种识别方法;随着人们对语音信号以及人耳结构特征、听音特征的研究深入,出现了以梅尔频率倒谱系数(Mel-FrequencyCepstralCoefficient,MFCC)为代表的基于底层声学特征的语种识别方法;为了进一步提升语种识别的准确率,减少噪声的干扰,出现了许多基于其他特征(例如韵律特征、瓶颈特征等等)的语种识别方法。语种识别主要分为三个过程,首先根据语音信号进行特征提取,然后建立语种识别模型,最后是对测试语音进行语种判决。传统的语种识别系统包括基于HMM等机器学习的语种识别、基于音素识别器的语种识别、基于底层声学特征的语种识别等。传统的语种识别局限于声学的研究和计算力的不足,最近几年随着科技技术的突飞猛进,如今的语种识别系统多采用神经网络来提取特征和高斯混合分类模型的架构,虽然系统性能获得的大幅度提升,但是从根本上仍是传统语种识别架构,系统性能已达到瓶颈。为了解决上述技术问题,进一步提升模型性能,即提高识别准确率和降低语种识别系统的复杂度,本专利技术实施例提供一种多语种混说语音的语种识别方法,该方法通过缩减人工预处理和后续处理,以原始语音波形作为输入,在卷积网络中加入注意力机制和线性整流ReLU函数,将特征提取和分类建立一体化结构模型,尽可能简化模型从原始输入到最终输出的步骤。图1为本专利技术实施例提供的多语种混说语音的语种识别方法示意图,如图,本专利技术实施例提供一种多语种混说语音的语种识别方法,其执行主体为多语种混说语音的语种识别装置。该方法包括:步骤S101、对待识别多语种混说语音数据进行端点检测,得到本文档来自技高网...

【技术保护点】
1.一种多语种混说语音的语种识别方法,其特征在于,包括:/n对待识别多语种混说语音数据进行端点检测,得到多帧语音状态信息;/n将所有的语音状态信息输入至语种识别模型,输出所述待识别多语种混说语音数据中每一帧语音状态信息所属的语种;/n其中,所述语种识别模型是基于多语种混说语音样本以及预先确定的多语种混说语音样本中每一帧语音状态信息所属的语种进行训练后得到。/n

【技术特征摘要】
1.一种多语种混说语音的语种识别方法,其特征在于,包括:
对待识别多语种混说语音数据进行端点检测,得到多帧语音状态信息;
将所有的语音状态信息输入至语种识别模型,输出所述待识别多语种混说语音数据中每一帧语音状态信息所属的语种;
其中,所述语种识别模型是基于多语种混说语音样本以及预先确定的多语种混说语音样本中每一帧语音状态信息所属的语种进行训练后得到。


2.根据权利要求1所述的多语种混说语音的语种识别方法,其特征在于,将所有的语音状态信息输入至语种识别模型,输出所述待识别多语种混说语音数据中每一帧语音状态信息所属的语种,具体包括:
将所有的语音状态信息输入至所述语种识别模型中的编码端,输出每一帧语音状态信息的高维语音特征;
将所有的高维语音特征输入至所述语种识别模型中的解码端,输出每一帧语音状态信息所属的语种。


3.根据权利要求2所述的多语种混说语音的语种识别方法,其特征在于,所述编码端由卷积层和全连接层组成,所述编码端的激活函数为线性整流函数。


4.根据权利要求3所述的多语种混说语音的语种识别方法,其特征在于,所述编码端中的卷积层的层数为四层;
所述编码端中的全连接层的层数为两层。


5.根据权利要求2所述的多语种混说语音的语种识别方法,其特征在于,所述解码端为注意力机制。


6.根据权利要求5所述的多语种混说语音的语种识别方法,其特征在于,将所有的高维语音特征输入至所述语种识别模型中的解码端,输出每一帧语音状态信息所属的语种,具体包括:
将所有的高维语音特征输入至所述解码端的Attend函数,输出每一语音状态...

【专利技术属性】
技术研发人员:陈运兵
申请(专利权)人:普天信息技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1