语种识别方法及装置、训练方法及装置、介质、终端制造方法及图纸

技术编号:18660051 阅读:33 留言:0更新日期:2018-08-11 15:17
本发明专利技术实施例公开了一种语种识别方法及装置、训练方法及装置、介质、终端,所述语种识别方法包括:获取待识别视频的语音识别特征以及唇语识别特征;对所述语音识别特征进行识别以获取语音音素序列,计算所述语音音素序列为预设语种的语音语种概率;对所述唇语识别特征进行识别以获取唇语音素序列,计算所述唇语音素序列为预设语种的唇语语种概率;根据所述语音语种概率以及所述唇语语种概率判断所述待识别视频的语种类型。本发明专利技术实施例中的技术方案的识别准确性更高。

Language recognition method and device, training method and device, medium and terminal

The embodiment of the invention discloses a language recognition method and a device, a training method and a device, a medium and a terminal. The language recognition method comprises acquiring the speech recognition features of the video to be recognized and the lip language recognition features, recognizing the speech recognition features to obtain the phoneme sequence and calculating the speech sounds. The phonetic language probability of the preset language is the morpheme sequence; the lip language recognition feature is identified to obtain the lip phoneme sequence, and the lip language probability of the preset language is calculated; the language type of the video to be recognized is judged according to the speech language probability and the lip language probability. The technical proposal in the embodiment of the invention has higher identification accuracy.

【技术实现步骤摘要】
语种识别方法及装置、训练方法及装置、介质、终端
本专利技术涉及计算机领域,尤其涉及语种识别方法及装置、训练方法及装置、介质、终端。
技术介绍
模式识别是人类的一项基本智能,在日常生活中,人们经常进行“模式识别”。随着计算机技术的发展以及人工智能的兴起,利用计算机代替人类进行模式识别迅速发展并成为新的技术学科。语种识别属于模式识别中一种,语种识别技术主要用于检测输入的信息的语种归类。现有的语种识别方法的准确性有待提升。
技术实现思路
本专利技术实施例解决的技术问题是提升语种识别方法的准确性。为解决上述技术问题,本专利技术实施例提供一种语种识别方法,包括:获取待识别视频的语音识别特征以及唇语识别特征;对所述语音识别特征进行识别以获取语音音素序列,计算所述语音音素序列为预设语种的语音语种概率;对所述唇语识别特征进行识别以获取唇语音素序列,计算所述唇语音素序列为预设语种的唇语语种概率;根据所述语音语种概率以及所述唇语语种概率判断所述待识别视频的语种类型。可选的,在获取待识别视频的语音识别特征以及唇语识别特征之前还包括:对待分段视频进行端点检测,以获取所述待识别视频。可选的,在判断所述待识别视频的语种类型之后还包括:根据所述待分段视频中各个所述待识别视频的识别结果,确定所述待分段视频中不同语种所占的比例。可选的,所述语音识别特征为PLP特征或Fbank特征。可选的,基于HMM模型以及其中使用异常数据训练的Sil模型获取所述语音音素序列;和/或,基于HMM模型以及其中使用异常数据训练的Sil模型获取所述唇语音素序列。可选的,根据所述Sil模型识别异常发音的音素为Sil音素。可选的,所述预设语种为一种或多种。可选的,所述预设语种为两种,分别为英文和中文;所述语音音素序列包括中文语音音素序列和英文语音音素序列;所述唇语音素序列包括中文唇语音素序列和英文唇语音素序列;对所述语音识别特征进行识别以获取语音音素序列包括:对所述语音识别特征进行中文识别,以获取所述中文语音音素序列;对所述语音识别特征进行英文识别,以获取所述英文语音音素序列;对所述唇语识别特征进行识别以获取唇语音素序列包括:对所述唇语识别特征进行中文识别,以获取所述中文唇语音素序列;对所述唇语识别特征进行英文识别,以获取所述英文唇语音素序列;所述语音语种概率包括所述英文语音音素序列为英文的语音英文概率、以及所述中文语音音素序列为中文的语音中文概率,所述唇语语种概率包括所述英文唇语音素序列为英文的唇语英文概率、以及所述中文唇语音素序列为中文的唇语中文概率。可选的,根据所述语音语种概率以及所述唇语语种概率判断所述待识别视频的语种类型包括:根据所述语音英文概率、语音中文概率、唇语英文概率以及唇语中文概率判断所述待识别视频的语种类型。可选的,利用N-gram模型计算所述语音音素序列的为预设语种的语音语种概率;和/或,利用N-gram模型所述唇语音素序列为预设语种的唇语语种概率。可选的,所述N-gram模型中N值取2。可选的,根据所述语音语种概率以及所述唇语语种概率判断所述待识别视频的语种类型包括:利用分类器判断所述待识别视频的语种类型。本专利技术实施例还提供一种语种识别的训练方法,包括:确定训练语料,所述训练语料包括训练视频及对应的音素标注和语种标注;获取所述训练视频的语音识别特征以及唇语识别特征;利用训练视频的语音识别特征、唇语识别特征以及对应的音素标注对声学模型进行训练,以使得基于所述声学模型能够对语音训练特征以及唇语训练特征进行识别,得到语音音素序列以及唇语音素序列;利用所述训练视频对应的音素标注和语种标注对语言模型进行训练,以使得基于所述语言模型能够对语音音素序列以及唇语音素序列进行识别,分别得到所述语音音素序列的为预设语种的语音语种概率以及所述唇语音素序列为预设语种的唇语语种概率;利用所述训练视频的语音语种概率、唇语语种概率以及对应的语种标注对分类判别模型进行训练,以使得基于所述分类判别模型能够根据语音语种概率以及唇语语种概率进行语种类型的判断。可选的,所述声学模型包括Sil模型,对声学模型进行训练包括对所述Sil模型进行训练。可选的,所述训练视频包括异常发音的训练视频;对所述Sil模型进行训练包括:利用所述异常发音的训练视频以及对应的音素标注对所述Sil模型进行训练,以使得所述声学模型能够将异常发音识别为Sil音素。本专利技术实施例还提供一种语种识别装置,包括:识别特征获取单元,适于获取待识别视频的语音识别特征以及唇语识别特征;音素序列识别单元,适于对所述语音识别特征进行识别以获取语音音素序列,并且对所述唇语识别特征进行识别以获取唇语音素序列;音素序列概率计算单元,适于计算所述语音音素序列的为预设语种的语音语种概率,并且计算所述唇语音素序列为预设语种的唇语语种概率;分类判别单元,适于根据所述语音语种概率以及所述唇语语种概率判断所述待识别视频的语种类型。可选的,所述语种识别装置还包括:端点检测单元,适于在获取待识别视频的语音识别特征以及唇语识别特征之前对待分段视频进行端点检测,以获取所述待识别视频。可选的,所述语种识别装置还包括:语种比例判断单元,适于在判断所述待识别视频的语种类型之后,根据所述待分段视频中各个所述待识别视频的识别结果,确定所述待分段视频中不同语种所占的比例。可选的,所述语音识别特征为PLP特征或Fbank特征。可选的,所述音素序列识别单元适于基于HMM模型以及其中使用异常数据训练的Sil模型获取所述语音音素序列和/或所述唇语音素序列。可选的,所述音素序列识别单元适于根据所述Sil模型识别异常发音的音素为Sil音素。可选的,所述预设语种为一种或多种。可选的,所述预设语种为两种,分别为英文和中文;所述语音音素序列包括中文语音音素序列和英文语音音素序列;所述唇语音素序列包括中文唇语音素序列和英文唇语音素序列;所述音素序列识别单元包括:中文语音音素序列识别器,适于对所述语音识别特征进行中文识别,以获取所述中文语音音素序列;英文语音音素序列识别器,适于对所述语音识别特征进行英文识别,以获取所述英文语音音素序列;中文唇语音素序列识别器,适于对所述唇语识别特征进行中文识别,以获取所述中文唇语音素序列;以及英文唇语音素序列识别器,适于对所述唇语识别特征进行英文识别,以获取所述英文唇语音素序列;所述音素序列概率计算单元包括:语音英文概率计算器,适于计算所述英文语音音素序列为英文的语音英文概率;语音中文概率计算器,适于计算所述中文语音音素序列为中文的语音中文概率;唇语英文概率计算器,适于计算所述唇语语种概率包括所述英文唇语音素序列为英文的唇语英文概率;以及唇语中文概率计算器,适于计算中文唇语音素序列为中文的唇语中文概率。可选的,所述分类判别单元适于根据所述语音英文概率、语音中文概率、唇语英文概率以及唇语中文概率判断所述待识别视频的语种类型。可选的,所述音素序列概率计算单元,适于利用N-gram模型计算所述语音音素序列的为预设语种的语音语种概率和/或所述唇语音素序列为预设语种的唇语语种概率。可选的,所述N-gram模型中N值取2。可选的,所述分类判别单元适于利用分类器判断所述待识别视频的语种类型。本专利技术实施例还提供一种语种识别的训练装置,包括:训练语料确定单元,适于确定训本文档来自技高网...

【技术保护点】
1.一种语种识别方法,其特征在于,包括:获取待识别视频的语音识别特征以及唇语识别特征;对所述语音识别特征进行识别以获取语音音素序列,计算所述语音音素序列为预设语种的语音语种概率;对所述唇语识别特征进行识别以获取唇语音素序列,计算所述唇语音素序列为预设语种的唇语语种概率;根据所述语音语种概率以及所述唇语语种概率判断所述待识别视频的语种类型。

【技术特征摘要】
1.一种语种识别方法,其特征在于,包括:获取待识别视频的语音识别特征以及唇语识别特征;对所述语音识别特征进行识别以获取语音音素序列,计算所述语音音素序列为预设语种的语音语种概率;对所述唇语识别特征进行识别以获取唇语音素序列,计算所述唇语音素序列为预设语种的唇语语种概率;根据所述语音语种概率以及所述唇语语种概率判断所述待识别视频的语种类型。2.根据权利要求1所述的语种识别方法,其特征在于,在获取待识别视频的语音识别特征以及唇语识别特征之前还包括:对待分段视频进行端点检测,以获取所述待识别视频。3.根据权利要求2所述的语种识别方法,其特征在于,在判断所述待识别视频的语种类型之后还包括:根据所述待分段视频中各个所述待识别视频的识别结果,确定所述待分段视频中不同语种所占的比例。4.根据权利要求1所述的语种识别方法,其特征在于,所述语音识别特征为PLP特征或Fbank特征。5.根据权利要求1所述的语种识别方法,其特征在于,基于HMM模型以及其中使用异常数据训练的Sil模型获取所述语音音素序列;和/或,基于HMM模型以及其中使用异常数据训练的Sil模型获取所述唇语音素序列。6.根据权利要求5所述的语种识别方法,其特征在于,根据所述Sil模型识别异常发音的音素为Sil音素。7.根据权利要求1所述的语种识别方法,其特征在于,所述预设语种为一种或多种。8.根据权利要求7所述的语种识别方法,其特征在于,所述预设语种为两种,分别为英文和中文;所述语音音素序列包括中文语音音素序列和英文语音音素序列;所述唇语音素序列包括中文唇语音素序列和英文唇语音素序列;对所述语音识别特征进行识别以获取语音音素序列包括:对所述语音识别特征进行中文识别,以获取所述中文语音音素序列;对所述语音识别特征进行英文识别,以获取所述英文语音音素序列;对所述唇语识别特征进行识别以获取唇语音素序列包括:对所述唇语识别特征进行中文识别,以获取所述中文唇语音素序列;对所述唇语识别特征进行英文识别,以获取所述英文唇语音素序列;所述语音语种概率包括所述英文语音音素序列为英文的语音英文概率、以及所述中文语音音素序列为中文的语音中文概率,所述唇语语种概率包括所述英文唇语音素序列为英文的唇语英文概率、以及所述中文唇语音素序列为中文的唇语中文概率。9.根据权利要求8所述的语种识别方法,其特征在于,根据所述语音语种概率以及所述唇语语种概率判断所述待识别视频的语种类型包括:根据所述语音英文概率、语音中文概率、唇语英文概率以及唇语中文概率判断所述待识别视频的语种类型。10.根据权利要求1所述的语种识别方法,其特征在于,利用N-gram模型计算所述语音音素序列的为预设语种的语音语种概率;和/或,利用N-gram模型所述唇语音素序列为预设语种的唇语语种概率。11.根据权利要求10所述的语种识别方法,其特征在于,所述N-gram模型中N值取2。12.根据权利要求1所述的语种识别方法,其特征在于,根据所述语音语种概率以及所述唇语语种概率判断所述待识别视频的语种类型包括:利用分类器判断所述待识别视频的语种类型。13.一种语种识别的训练方法,其特征在于,包括:确定训练语料,所述训练语料包括训练视频及对应的音素标注和语种标注;获取所述训练视频的语音识别特征以及唇语识别特征;利用训练视频的语音识别特征、唇语识别特征以及对应的音素标注对声学模型进行训练...

【专利技术属性】
技术研发人员:杨嵩张邦鑫黄琰杨松帆陈飞
申请(专利权)人:北京易真学思教育科技有限公司北京新唐思创教育科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1