一种语种识别方法及系统技术方案

技术编号：27747164 阅读：24 留言：0更新日期：2021-03-19 13:42

本发明专利技术为一种语种识别方法及系统，包括S0：建立背景噪音库和人声数据库；S100：基于背景噪音库对人声数据库中语音数据进行预处理；S200：对预处理后的语音数据进行VAD检测，提取活动语音数据的MFCC特征向量，建立人声GMM模型；S300：对背景噪音库中噪音数据进行VAD检测，提取所述活动噪音数据的MFCC特征向量，建立噪音GMM模型；S400：基于活动语音数据MFCC特征向量，建立GMM‑ivector语种识别模型，并生成语种特征库；S500：对待测声音数据进行VAD检测并提取MFCC特征向量，基于人声GMM模型和噪音GMM模型判断待测声音数据是否为人声信号；S600：若判断待测声音数据为人声信号，则用所述GMM‑ivector语种识别模型提取该待测声音数据的ivector特征，进行语种识别。本发明专利技术可稳定识别语种，增强鲁棒性。

全部详细技术资料下载

【技术实现步骤摘要】
一种语种识别方法及系统
本专利技术涉及语种识别
，尤其涉及一种语种识别方法及系统。
技术介绍
目前，自动语种识别在语音翻译，重点人群监护，信息安全，军事安全等领域有着广泛的应用前景，现有方法无论是GMM(Adaptivebackgroundmixturemodelsforreal-timetracking)-ivector框架还是深度神经网络框架都面临解决识别鲁棒性的问题，本专利技术从语音样本预处理、语音特征鲁棒性处理、增加人声检测模块、语种特征匹配的鲁棒性处理等方面增强了语种识别的鲁棒性。
技术实现思路
本专利技术为一种语种识别方法及系统，用于解决语种识别领域中对集外数据鲁棒性识别较难的问题。本专利技术提供一种语种识别方法，包括：S0：建立背景噪音库和人声数据库，所述人声数据库包含多个语种的语音数据；S100：基于所述背景噪音库对所述人声数据库中的语音数据进行预处理；S200：对预处理后的语音数据进行活动语音段检测，拼接包含活动语音段的帧以生成活动语音数据，并提取所述活动语音数据的MFCC特征向量，建立人声GMM模型；S300：对背景噪音库中的噪音数据进行活动噪音段检测，拼接包含活动噪音段的帧以生成活动噪音数据，并提取所述活动噪音数据的MFCC特征向量，建立噪音GMM模型；S400：基于各个语种的活动语音数据的MFCC特征向量，建立GMM-ivector语种识别模型，并生成各个语种的语种特征库；S500：对待测声音数据进行活动语音段检...

【技术保护点】
1.一种语种识别方法，其特征在于，包括：/nS0：建立背景噪音库和人声数据库，所述人声数据库包含多个语种的语音数据；/nS100：基于所述背景噪音库对所述人声数据库中的语音数据进行预处理；/nS200：对预处理后的语音数据进行活动语音段检测，拼接包含活动语音段的帧以生成活动语音数据，并提取所述活动语音数据的MFCC特征向量，建立人声GMM模型；/nS300：对背景噪音库中的噪音数据进行活动噪音段检测，拼接包含活动噪音段的帧以生成活动噪音数据，并提取所述活动噪音数据的MFCC特征向量，建立噪音GMM模型；/nS400：基于各个语种的活动语音数据的MFCC特征向量，建立GMM-ivector语种识别模型，并生成各个语种的语种特征库；/nS500：对待测声音数据进行活动语音段检测、拼接包含活动语音段的帧并提取MFCC特征向量，基于所述人声GMM模型和噪音GMM模型判断待测声音数据是否为人声信号；/nS600：若判断待测声音数据为人声信号，则利用所述GMM-ivector语种识别模型提取该待测声音数据的ivector特征，并基于所述语种特征库进行语种识别。/n

【技术特征摘要】
1.一种语种识别方法，其特征在于，包括：
S0：建立背景噪音库和人声数据库，所述人声数据库包含多个语种的语音数据；
S100：基于所述背景噪音库对所述人声数据库中的语音数据进行预处理；
S200：对预处理后的语音数据进行活动语音段检测，拼接包含活动语音段的帧以生成活动语音数据，并提取所述活动语音数据的MFCC特征向量，建立人声GMM模型；
S300：对背景噪音库中的噪音数据进行活动噪音段检测，拼接包含活动噪音段的帧以生成活动噪音数据，并提取所述活动噪音数据的MFCC特征向量，建立噪音GMM模型；
S400：基于各个语种的活动语音数据的MFCC特征向量，建立GMM-ivector语种识别模型，并生成各个语种的语种特征库；
S500：对待测声音数据进行活动语音段检测、拼接包含活动语音段的帧并提取MFCC特征向量，基于所述人声GMM模型和噪音GMM模型判断待测声音数据是否为人声信号；
S600：若判断待测声音数据为人声信号，则利用所述GMM-ivector语种识别模型提取该待测声音数据的ivector特征，并基于所述语种特征库进行语种识别。

2.根据权利要求1所述的一种语种识别方法，其特征在于，还包括语种注册步骤：当需要增加语种时，采集该语种的语音数据，并进行所述预处理、活动语音段检测，拼接包含活动语音段的帧并提取MFCC特征向量，进而利用所述GMM-ivector语种识别模型提取该待测声音数据的ivector特征，生成该语种对应的语种特征库。

3.根据权利要求1所述的一种语种识别方法，其特征在于，所述步骤S100包括：
S110：对人声数据库中的原始语音数据S1进行重采样，并分别进行声强归一化和语速随机重采操作，得到声强归一语音数据S1’和语速随机重采的语音数据S1”；
S120：对所述声强归一语音数据S1’叠加背景噪音库中的噪音信号，得到叠加噪音的语音数据S2；
S130：对所述语速随机重采的语音数据S1”叠加人声数据库中的其他任一语音数据，得到叠加其他人声的语音数据S3；
S140：将所述语音数据S1、S2和S3拼接得到预处理后的语音数据。

4.根据权利要求1所述的一种语种识别方法，其特征在于，所述步骤S200包括：
S210：基于高低频带能量比较对预处理后的语音数据进行活动语音段检测；
S220：拼接包含活动语音段的帧以生成活动语音数据；
S230：提取所述活动语音数据的MFCC特征、MFCC一阶特征和MFCC二阶特征，得到MFCC特征向量，并进行归一化；
S240：基于所述归一化后的MFCC特征向量建立人声GMM模型。

5.根据权利要求1所述的一种语种识别方法，其特征在于，所述步骤S300包括：
S310：基于高低频带能量比较对预处理后的语音数据进行活动噪音段检测；
S320：拼接包含活动噪音段的帧以生成活动噪音数据；
S330：提取所述活动噪音数据的MFCC特征、MFCC一阶特征和MFCC二阶特征，得到MFCC特征向量，并进行归一化；
S340：基于所述归一化后的MFCC特征向量建立噪音GMM模型。

6.根据权利要求1所述的一种语种识别方法，其特征在于，所述步骤S400包括：

【专利技术属性】
技术研发人员：马杰，
申请(专利权)人：北京快鱼电子股份公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人