【技术实现步骤摘要】
一种语种识别方法及系统
本专利技术涉及语种识别
,尤其涉及一种语种识别方法及系统。
技术介绍
目前,自动语种识别在语音翻译,重点人群监护,信息安全,军事安全等领域有着广泛的应用前景,现有方法无论是GMM(Adaptivebackgroundmixturemodelsforreal-timetracking)-ivector框架还是深度神经网络框架都面临解决识别鲁棒性的问题,本专利技术从语音样本预处理、语音特征鲁棒性处理、增加人声检测模块、语种特征匹配的鲁棒性处理等方面增强了语种识别的鲁棒性。
技术实现思路
本专利技术为一种语种识别方法及系统,用于解决语种识别领域中对集外数据鲁棒性识别较难的问题。本专利技术提供一种语种识别方法,包括:S0:建立背景噪音库和人声数据库,所述人声数据库包含多个语种的语音数据;S100:基于所述背景噪音库对所述人声数据库中的语音数据进行预处理;S200:对预处理后的语音数据进行活动语音段检测,拼接包含活动语音段的帧以生成活动语音数据,并提取所述活动语音数据的MFCC特征向量,建立人声GMM模型;S300:对背景噪音库中的噪音数据进行活动噪音段检测,拼接包含活动噪音段的帧以生成活动噪音数据,并提取所述活动噪音数据的MFCC特征向量,建立噪音GMM模型;S400:基于各个语种的活动语音数据的MFCC特征向量,建立GMM-ivector语种识别模型,并生成各个语种的语种特征库;S500:对待测声音数据进行活动语音段检 ...
【技术保护点】
1.一种语种识别方法,其特征在于,包括:/nS0:建立背景噪音库和人声数据库,所述人声数据库包含多个语种的语音数据;/nS100:基于所述背景噪音库对所述人声数据库中的语音数据进行预处理;/nS200:对预处理后的语音数据进行活动语音段检测,拼接包含活动语音段的帧以生成活动语音数据,并提取所述活动语音数据的MFCC特征向量,建立人声GMM模型;/nS300:对背景噪音库中的噪音数据进行活动噪音段检测,拼接包含活动噪音段的帧以生成活动噪音数据,并提取所述活动噪音数据的MFCC特征向量,建立噪音GMM模型;/nS400:基于各个语种的活动语音数据的MFCC特征向量,建立GMM-ivector语种识别模型,并生成各个语种的语种特征库;/nS500:对待测声音数据进行活动语音段检测、拼接包含活动语音段的帧并提取MFCC特征向量,基于所述人声GMM模型和噪音GMM模型判断待测声音数据是否为人声信号;/nS600:若判断待测声音数据为人声信号,则利用所述GMM-ivector语种识别模型提取该待测声音数据的ivector特征,并基于所述语种特征库进行语种识别。/n
【技术特征摘要】 【专利技术属性】
1.一种语种识别方法,其特征在于,包括:
S0:建立背景噪音库和人声数据库,所述人声数据库包含多个语种的语音数据;
S100:基于所述背景噪音库对所述人声数据库中的语音数据进行预处理;
S200:对预处理后的语音数据进行活动语音段检测,拼接包含活动语音段的帧以生成活动语音数据,并提取所述活动语音数据的MFCC特征向量,建立人声GMM模型;
S300:对背景噪音库中的噪音数据进行活动噪音段检测,拼接包含活动噪音段的帧以生成活动噪音数据,并提取所述活动噪音数据的MFCC特征向量,建立噪音GMM模型;
S400:基于各个语种的活动语音数据的MFCC特征向量,建立GMM-ivector语种识别模型,并生成各个语种的语种特征库;
S500:对待测声音数据进行活动语音段检测、拼接包含活动语音段的帧并提取MFCC特征向量,基于所述人声GMM模型和噪音GMM模型判断待测声音数据是否为人声信号;
S600:若判断待测声音数据为人声信号,则利用所述GMM-ivector语种识别模型提取该待测声音数据的ivector特征,并基于所述语种特征库进行语种识别。
2.根据权利要求1所述的一种语种识别方法,其特征在于,还包括语种注册步骤:当需要增加语种时,采集该语种的语音数据,并进行所述预处理、活动语音段检测,拼接包含活动语音段的帧并提取MFCC特征向量,进而利用所述GMM-ivector语种识别模型提取该待测声音数据的ivector特征,生成该语种对应的语种特征库。
3.根据权利要求1所述的一种语种识别方法,其特征在于,所述步骤S100包括:
S110:对人声数据库中的原始语音数据S1进行重采样,并分别进行声强归一化和语速随机重采操作,得到声强归一语音数据S1’和语速随机重采的语音数据S1”;
S120:对所述声强归一语音数据S1’叠加背景噪音库中的噪音信号,得到叠加噪音的语音数据S2;
S130:对所述语速随机重采的语音数据S1”叠加人声数据库中的其他任一语音数据,得到叠加其他人声的语音数据S3;
S140:将所述语音数据S1、S2和S3拼接得到预处理后的语音数据。
4.根据权利要求1所述的一种语种识别方法,其特征在于,所述步骤S200包括:
S210:基于高低频带能量比较对预处理后的语音数据进行活动语音段检测;
S220:拼接包含活动语音段的帧以生成活动语音数据;
S230:提取所述活动语音数据的MFCC特征、MFCC一阶特征和MFCC二阶特征,得到MFCC特征向量,并进行归一化;
S240:基于所述归一化后的MFCC特征向量建立人声GMM模型。
5.根据权利要求1所述的一种语种识别方法,其特征在于,所述步骤S300包括:
S310:基于高低频带能量比较对预处理后的语音数据进行活动噪音段检测;
S320:拼接包含活动噪音段的帧以生成活动噪音数据;
S330:提取所述活动噪音数据的MFCC特征、MFCC一阶特征和MFCC二阶特征,得到MFCC特征向量,并进行归一化;
S340:基于所述归一化后的MFCC特征向量建立噪音GMM模型。
6.根据权利要求1所述的一种语种识别方法,其特征在于,所述步骤S400包括:
技术研发人员:马杰,
申请(专利权)人:北京快鱼电子股份公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。