多语种混说语音的语种识别方法及装置制造方法及图纸

技术编号：29529137 阅读：20 留言：0更新日期：2021-08-03 15:16

本发明专利技术实施例提供一种多语种混说语音的语种识别方法及装置，所述方法包括：对待识别多语种混说语音数据进行端点检测，得到多帧语音状态信息；将所有的语音状态信息输入至语种识别模型，输出所述待识别多语种混说语音数据中每一帧语音状态信息所属的语种；其中，所述语种识别模型是基于多语种混说语音样本以及预先确定的多语种混说语音样本中每一帧语音状态信息所属的语种进行训练后得到。本发明专利技术实施例提供的多语种混说语音的语种识别方法及装置，通过缩减人工预处理和后续处理，以原始语音波形作为输入，将特征提取和分类建立一体化结构模型，尽可能简化模型从原始输入到最终输出的步骤，增加模型的整体契合度，提高了语种识别的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
多语种混说语音的语种识别方法及装置
本专利技术涉及语音识别
，尤其涉及一种多语种混说语音的语种识别方法及装置。
技术介绍
语种识别是通过计算机识别出一段语音段所属语言的过程。在工作和日常生活中，多语种混说的现象越来越常见，而这给单一语言的语音识别带了巨大困难。现有技术中，语种识别主要分为三个过程，首先根据语音信号进行特征提取，然后建立语种识别模型，最后是对测试语音进行语种判决。传统的语种识别系统包括基于HMM等机器学习的语种识别、基于音素识别器的语种识别、基于底层声学特征的语种识别等。但是，现有技术中的语种识别局限于声学的研究和建模的不足，导致语种识别系统的复杂较高，并且语种识别的准确率有待提高。
技术实现思路
本专利技术实施例提供一种多语种混说语音的语种识别方法及装置，用于解决现有技术中的上述技术问题。为了解决上述技术问题，一方面，本专利技术实施例提供一种多语种混说语音的语种识别方法，包括：对待识别多语种混说语音数据进行端点检测，得到多帧语音状态信息；将所有的语音状态信息输入至语种识别模型，输出所述待识别多语种混说语音数据中每一帧语音状态信息所属的语种；其中，所述语种识别模型是基于多语种混说语音样本以及预先确定的多语种混说语音样本中每一帧语音状态信息所属的语种进行训练后得到。进一步地，将所有的语音状态信息输入至语种识别模型，输出所述待识别多语种混说语音数据中每一帧语音状态信息所属的语种，具体包括：将所有的语音状态信息输入至所述...

【技术保护点】
1.一种多语种混说语音的语种识别方法，其特征在于，包括：/n对待识别多语种混说语音数据进行端点检测，得到多帧语音状态信息；/n将所有的语音状态信息输入至语种识别模型，输出所述待识别多语种混说语音数据中每一帧语音状态信息所属的语种；/n其中，所述语种识别模型是基于多语种混说语音样本以及预先确定的多语种混说语音样本中每一帧语音状态信息所属的语种进行训练后得到。/n

【技术特征摘要】
1.一种多语种混说语音的语种识别方法，其特征在于，包括：
对待识别多语种混说语音数据进行端点检测，得到多帧语音状态信息；
将所有的语音状态信息输入至语种识别模型，输出所述待识别多语种混说语音数据中每一帧语音状态信息所属的语种；
其中，所述语种识别模型是基于多语种混说语音样本以及预先确定的多语种混说语音样本中每一帧语音状态信息所属的语种进行训练后得到。

2.根据权利要求1所述的多语种混说语音的语种识别方法，其特征在于，将所有的语音状态信息输入至语种识别模型，输出所述待识别多语种混说语音数据中每一帧语音状态信息所属的语种，具体包括：
将所有的语音状态信息输入至所述语种识别模型中的编码端，输出每一帧语音状态信息的高维语音特征；
将所有的高维语音特征输入至所述语种识别模型中的解码端，输出每一帧语音状态信息所属的语种。

3.根据权利要求2所述的多语种混说语音的语种识别方法，其特征在于，所述编码端由卷积层和全连接层组成，所述编码端的激活函数为线性整流函数。

4.根据权利要求3所述的多语种混说语音的语种识别方法，其特征在于，所述编码端中的卷积层的层数为四层；
所述编码端中的全连接层的层数为两层。

5.根据权利要求2所述的多语种混说语音的语种识别方法，其特征在于，所述解码端为注意力机制。

6.根据权利要求5所述的多语种混说语音的语种识别方法，其特征在于，将所有的高维语音特征输入至所述语种识别模型中的解码端，输出每一帧语音状态信息所属的语种，具体包括：
将所有的高维语音特征输入至所述解码端的Attend函数，输出每一语音状态...

【专利技术属性】
技术研发人员：陈运兵，
申请(专利权)人：普天信息技术有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人