一种语种识别方法及系统技术方案

技术编号:27747164 阅读:24 留言:0更新日期:2021-03-19 13:42
本发明专利技术为一种语种识别方法及系统,包括S0:建立背景噪音库和人声数据库;S100:基于背景噪音库对人声数据库中语音数据进行预处理;S200:对预处理后的语音数据进行VAD检测,提取活动语音数据的MFCC特征向量,建立人声GMM模型;S300:对背景噪音库中噪音数据进行VAD检测,提取所述活动噪音数据的MFCC特征向量,建立噪音GMM模型;S400:基于活动语音数据MFCC特征向量,建立GMM‑ivector语种识别模型,并生成语种特征库;S500:对待测声音数据进行VAD检测并提取MFCC特征向量,基于人声GMM模型和噪音GMM模型判断待测声音数据是否为人声信号;S600:若判断待测声音数据为人声信号,则用所述GMM‑ivector语种识别模型提取该待测声音数据的ivector特征,进行语种识别。本发明专利技术可稳定识别语种,增强鲁棒性。

【技术实现步骤摘要】
一种语种识别方法及系统
本专利技术涉及语种识别
,尤其涉及一种语种识别方法及系统。
技术介绍
目前,自动语种识别在语音翻译,重点人群监护,信息安全,军事安全等领域有着广泛的应用前景,现有方法无论是GMM(Adaptivebackgroundmixturemodelsforreal-timetracking)-ivector框架还是深度神经网络框架都面临解决识别鲁棒性的问题,本专利技术从语音样本预处理、语音特征鲁棒性处理、增加人声检测模块、语种特征匹配的鲁棒性处理等方面增强了语种识别的鲁棒性。
技术实现思路
本专利技术为一种语种识别方法及系统,用于解决语种识别领域中对集外数据鲁棒性识别较难的问题。本专利技术提供一种语种识别方法,包括:S0:建立背景噪音库和人声数据库,所述人声数据库包含多个语种的语音数据;S100:基于所述背景噪音库对所述人声数据库中的语音数据进行预处理;S200:对预处理后的语音数据进行活动语音段检测,拼接包含活动语音段的帧以生成活动语音数据,并提取所述活动语音数据的MFCC特征向量,建立人声GMM模型;S300:对背景噪音库中的噪音数据进行活动噪音段检测,拼接包含活动噪音段的帧以生成活动噪音数据,并提取所述活动噪音数据的MFCC特征向量,建立噪音GMM模型;S400:基于各个语种的活动语音数据的MFCC特征向量,建立GMM-ivector语种识别模型,并生成各个语种的语种特征库;S500:对待测声音数据进行活动语音段检测、拼接包含活动语音段的帧并提取MFCC特征向量,基于所述人声GMM模型和噪音GMM模型判断待测声音数据是否为人声信号;S600:若判断待测声音数据为人声信号,则利用所述GMM-ivector语种识别模型提取该待测声音数据的ivector特征,并基于所述语种特征库进行语种识别。更进一步的,还包括语种注册步骤:当需要增加语种时,采集该语种的语音数据,并进行所述预处理、活动语音段检测,拼接包含活动语音段的帧并提取MFCC特征向量,进而利用所述GMM-ivector语种识别模型提取该待测声音数据的ivector特征,生成该语种对应的语种特征库。更进一步的,所述步骤S100包括:S110:对人声数据库中的原始语音数据S1进行重采样,并分别进行声强归一化和语速随机重采操作,得到声强归一语音数据S1’和语速随机重采的语音数据S1”;S120:对所述声强归一语音数据S1’叠加背景噪音库中的噪音信号,得到叠加噪音的语音数据S2;S130:对所述语速随机重采的语音数据S1”叠加人声数据库中的其他任一语音数据,得到叠加其他人声的语音数据S3;S140:将所述语音数据S1、S2和S3拼接得到预处理后的语音数据。更进一步的,所述步骤S200包括:S210:基于高低频带能量比较对预处理后的语音数据进行活动语音段检测;S220:拼接包含活动语音段的帧以生成活动语音数据;S230:提取所述活动语音数据的MFCC特征、MFCC一阶特征和MFCC二阶特征,得到MFCC特征向量,并进行归一化;S240:基于所述归一化后的MFCC特征向量建立人声GMM模型。更进一步的,所述步骤S300包括:S310:基于高低频带能量比较对预处理后的语音数据进行活动噪音段检测;S320:拼接包含活动噪音段的帧以生成活动噪音数据;S330:提取所述活动噪音数据的MFCC特征、MFCC一阶特征和MFCC二阶特征,得到MFCC特征向量,并进行归一化;S340:基于所述归一化后的MFCC特征向量建立噪音GMM模型。更进一步的,所述步骤S400包括:S410:对于每个语种活动语音数据的MFCC特征向量,按其所在帧的先后顺序拼接在一起得到顺序拼接的MFCC特征向量,再按照随机顺序拼接在一起得到随机拼接的MFCC特征向量,将所述顺序拼接的MFCC特征向量和所述随机拼接的MFCC特征向量拼接在一起并进行归一化,得到该语种的归一化MFCC特征向量;S420:基于各个语种的归一化MFCC特征向量建立GMM-ivector语种识别模型,并将各个语种的语音数据输入该GMM-ivector语种识别模型以得到各个语种的特征矩阵,并保存到各个语种的语种特征库。更进一步的,所述步骤S500包括:S510:对待测声音数据进行活动语音段检测、拼接包含活动语音段的帧并提取MFCC特征向量;S520:将该MFCC特征向量分别输入所述人声GMM模型和噪音GMM模型,得到该待测声音数据为人声的后验概率和该待测声音数据为噪音的后验概率;S530:通过比较两个后验概率来判断待测声音数据是否为人声信号。更进一步的,所述步骤S600包括:S610:若判断待测声音数据为人声信号,则利用所述GMM-ivector语种识别模型提取该待测声音数据的ivector特征;S620:分别计算该待测声音数据的ivector特征与各个语种特征集的平均余弦距离;S630:找出最大的两个平均余弦距离值,对其进行鲁棒性判断,确定该待测声音数据的语种。更进一步的,所述鲁棒性判断采用以下判断条件:其中,maxScore1和maxScore2为最大的两个平均余弦距离值;若maxScore1和maxScore2满足上述条件,则确定该待测声音数据的语种为maxScore1对应的语种。本专利技术的另一目的是提供一种语种识别系统,包括:人声检测模块:用于基于人声GMM模型和噪音GMM模型对待测声音数据进行检测,判断是否为人声;语种识别模块:用于利用GMM-ivector语种识别模型获得所述将待测声音数据的ivector特征,并与各个语种特征库进行比对,确定待测声音数据的语种;语种注册模块:用于当需要增加语种时,采集该语种的语音数据,并进行所述预处理、活动语音段检测,拼接包含活动语音段的帧并提取MFCC特征向量,进而利用所述GMM-ivector语种识别模型提取该待测声音数据的ivector特征,生成该语种对应的语种特征库;其中,所述人声检测模块包括语音预处理单元、活动语音段检测单元、特征提取单元和GMM建模单元;所述语音预处理单元用于对声音数据进行预处理;所述活动语音段检测单元用于对所述预处理后的声音数据进行活动语音段检测;所述特征提取单元用于对所述活动语音段检测后的声音数据进行MFCC特征提取;所述GMM建模单元用于基于所述提取的MFCC特征建立人声GMM模型和噪音GMM模型,以判断待测声音数据是否为人声;其中,所述语种识别模块通过分别计算该待测声音数据的ivector特征与各个语种特征集的平均余弦距离,并进行鲁棒性判断来确定该待测声音数据的语种。本专利技术的有益效果在于:通过对语音样本进行预处理、对语音特征进行鲁棒性处理、增加人声检测模块和对语种特征匹配进行鲁棒本文档来自技高网...

【技术保护点】
1.一种语种识别方法,其特征在于,包括:/nS0:建立背景噪音库和人声数据库,所述人声数据库包含多个语种的语音数据;/nS100:基于所述背景噪音库对所述人声数据库中的语音数据进行预处理;/nS200:对预处理后的语音数据进行活动语音段检测,拼接包含活动语音段的帧以生成活动语音数据,并提取所述活动语音数据的MFCC特征向量,建立人声GMM模型;/nS300:对背景噪音库中的噪音数据进行活动噪音段检测,拼接包含活动噪音段的帧以生成活动噪音数据,并提取所述活动噪音数据的MFCC特征向量,建立噪音GMM模型;/nS400:基于各个语种的活动语音数据的MFCC特征向量,建立GMM-ivector语种识别模型,并生成各个语种的语种特征库;/nS500:对待测声音数据进行活动语音段检测、拼接包含活动语音段的帧并提取MFCC特征向量,基于所述人声GMM模型和噪音GMM模型判断待测声音数据是否为人声信号;/nS600:若判断待测声音数据为人声信号,则利用所述GMM-ivector语种识别模型提取该待测声音数据的ivector特征,并基于所述语种特征库进行语种识别。/n

【技术特征摘要】
1.一种语种识别方法,其特征在于,包括:
S0:建立背景噪音库和人声数据库,所述人声数据库包含多个语种的语音数据;
S100:基于所述背景噪音库对所述人声数据库中的语音数据进行预处理;
S200:对预处理后的语音数据进行活动语音段检测,拼接包含活动语音段的帧以生成活动语音数据,并提取所述活动语音数据的MFCC特征向量,建立人声GMM模型;
S300:对背景噪音库中的噪音数据进行活动噪音段检测,拼接包含活动噪音段的帧以生成活动噪音数据,并提取所述活动噪音数据的MFCC特征向量,建立噪音GMM模型;
S400:基于各个语种的活动语音数据的MFCC特征向量,建立GMM-ivector语种识别模型,并生成各个语种的语种特征库;
S500:对待测声音数据进行活动语音段检测、拼接包含活动语音段的帧并提取MFCC特征向量,基于所述人声GMM模型和噪音GMM模型判断待测声音数据是否为人声信号;
S600:若判断待测声音数据为人声信号,则利用所述GMM-ivector语种识别模型提取该待测声音数据的ivector特征,并基于所述语种特征库进行语种识别。


2.根据权利要求1所述的一种语种识别方法,其特征在于,还包括语种注册步骤:当需要增加语种时,采集该语种的语音数据,并进行所述预处理、活动语音段检测,拼接包含活动语音段的帧并提取MFCC特征向量,进而利用所述GMM-ivector语种识别模型提取该待测声音数据的ivector特征,生成该语种对应的语种特征库。


3.根据权利要求1所述的一种语种识别方法,其特征在于,所述步骤S100包括:
S110:对人声数据库中的原始语音数据S1进行重采样,并分别进行声强归一化和语速随机重采操作,得到声强归一语音数据S1’和语速随机重采的语音数据S1”;
S120:对所述声强归一语音数据S1’叠加背景噪音库中的噪音信号,得到叠加噪音的语音数据S2;
S130:对所述语速随机重采的语音数据S1”叠加人声数据库中的其他任一语音数据,得到叠加其他人声的语音数据S3;
S140:将所述语音数据S1、S2和S3拼接得到预处理后的语音数据。


4.根据权利要求1所述的一种语种识别方法,其特征在于,所述步骤S200包括:
S210:基于高低频带能量比较对预处理后的语音数据进行活动语音段检测;
S220:拼接包含活动语音段的帧以生成活动语音数据;
S230:提取所述活动语音数据的MFCC特征、MFCC一阶特征和MFCC二阶特征,得到MFCC特征向量,并进行归一化;
S240:基于所述归一化后的MFCC特征向量建立人声GMM模型。


5.根据权利要求1所述的一种语种识别方法,其特征在于,所述步骤S300包括:
S310:基于高低频带能量比较对预处理后的语音数据进行活动噪音段检测;
S320:拼接包含活动噪音段的帧以生成活动噪音数据;
S330:提取所述活动噪音数据的MFCC特征、MFCC一阶特征和MFCC二阶特征,得到MFCC特征向量,并进行归一化;
S340:基于所述归一化后的MFCC特征向量建立噪音GMM模型。


6.根据权利要求1所述的一种语种识别方法,其特征在于,所述步骤S400包括:

【专利技术属性】
技术研发人员:马杰
申请(专利权)人:北京快鱼电子股份公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1