语种识别方法及装置、训练方法及装置、介质、终端制造方法及图纸

技术编号：18660051 阅读：33 留言：0更新日期：2018-08-11 15:17

本发明专利技术实施例公开了一种语种识别方法及装置、训练方法及装置、介质、终端，所述语种识别方法包括：获取待识别视频的语音识别特征以及唇语识别特征；对所述语音识别特征进行识别以获取语音音素序列，计算所述语音音素序列为预设语种的语音语种概率；对所述唇语识别特征进行识别以获取唇语音素序列，计算所述唇语音素序列为预设语种的唇语语种概率；根据所述语音语种概率以及所述唇语语种概率判断所述待识别视频的语种类型。本发明专利技术实施例中的技术方案的识别准确性更高。

Language recognition method and device, training method and device, medium and terminal

The embodiment of the invention discloses a language recognition method and a device, a training method and a device, a medium and a terminal. The language recognition method comprises acquiring the speech recognition features of the video to be recognized and the lip language recognition features, recognizing the speech recognition features to obtain the phoneme sequence and calculating the speech sounds. The phonetic language probability of the preset language is the morpheme sequence; the lip language recognition feature is identified to obtain the lip phoneme sequence, and the lip language probability of the preset language is calculated; the language type of the video to be recognized is judged according to the speech language probability and the lip language probability. The technical proposal in the embodiment of the invention has higher identification accuracy.

全部详细技术资料下载

【技术实现步骤摘要】
语种识别方法及装置、训练方法及装置、介质、终端
本专利技术涉及计算机领域，尤其涉及语种识别方法及装置、训练方法及装置、介质、终端。
技术介绍
模式识别是人类的一项基本智能，在日常生活中，人们经常进行“模式识别”。随着计算机技术的发展以及人工智能的兴起，利用计算机代替人类进行模式识别迅速发展并成为新的技术学科。语种识别属于模式识别中一种，语种识别技术主要用于检测输入的信息的语种归类。现有的语种识别方法的准确性有待提升。
技术实现思路
本专利技术实施例解决的技术问题是提升语种识别方法的准确性。为解决上述技术问题，本专利技术实施例提供一种语种识别方法，包括：获取待识别视频的语音识别特征以及唇语识别特征；对所述语音识别特征进行识别以获取语音音素序列，计算所述语音音素序列为预设语种的语音语种概率；对所述唇语识别特征进行识别以获取唇语音素序列，计算所述唇语音素序列为预设语种的唇语语种概率；根据所述语音语种概率以及所述唇语语种概率判断所述待识别视频的语种类型。可选的，在获取待识别视频的语音识别特征以及唇语识别特征之前还包括：对待分段视频进行端点检测，以获取所述待识别视频。可选的，在判断所述待识别视频的语种类型之后还包括：根据所述待分段视频中各个所述待识别视频的识别结果，确定所述待分段视频中不同语种所占的比例。可选的，所述语音识别特征为PLP特征或Fbank特征。可选的，基于HMM模型以及其中使用异常数据训练的Sil模型获取所述语音音素序列；和/或，基于HMM模型以及其中使用异常数据训练的Sil模型获取所述唇语音素序列。可选的，根据所述Sil模型识别异常发音的音素为Sil音素...

【技术保护点】
1.一种语种识别方法，其特征在于，包括：获取待识别视频的语音识别特征以及唇语识别特征；对所述语音识别特征进行识别以获取语音音素序列，计算所述语音音素序列为预设语种的语音语种概率；对所述唇语识别特征进行识别以获取唇语音素序列，计算所述唇语音素序列为预设语种的唇语语种概率；根据所述语音语种概率以及所述唇语语种概率判断所述待识别视频的语种类型。

【技术特征摘要】
1.一种语种识别方法，其特征在于，包括：获取待识别视频的语音识别特征以及唇语识别特征；对所述语音识别特征进行识别以获取语音音素序列，计算所述语音音素序列为预设语种的语音语种概率；对所述唇语识别特征进行识别以获取唇语音素序列，计算所述唇语音素序列为预设语种的唇语语种概率；根据所述语音语种概率以及所述唇语语种概率判断所述待识别视频的语种类型。2.根据权利要求1所述的语种识别方法，其特征在于，在获取待识别视频的语音识别特征以及唇语识别特征之前还包括：对待分段视频进行端点检测，以获取所述待识别视频。3.根据权利要求2所述的语种识别方法，其特征在于，在判断所述待识别视频的语种类型之后还包括：根据所述待分段视频中各个所述待识别视频的识别结果，确定所述待分段视频中不同语种所占的比例。4.根据权利要求1所述的语种识别方法，其特征在于，所述语音识别特征为PLP特征或Fbank特征。5.根据权利要求1所述的语种识别方法，其特征在于，基于HMM模型以及其中使用异常数据训练的Sil模型获取所述语音音素序列；和/或，基于HMM模型以及其中使用异常数据训练的Sil模型获取所述唇语音素序列。6.根据权利要求5所述的语种识别方法，其特征在于，根据所述Sil模型识别异常发音的音素为Sil音素。7.根据权利要求1所述的语种识别方法，其特征在于，所述预设语种为一种或多种。8.根据权利要求7所述的语种识别方法，其特征在于，所述预设语种为两种，分别为英文和中文；所述语音音素序列包括中文语音音素序列和英文语音音素序列；所述唇语音素序列包括中文唇语音素序列和英文唇语音素序列；对所述语音识别特征进行识别以获取语音音素序列包括：对所述语音识别特征进行中文识别，以获取所述中文语音音素序列；对所述语音识别特征进行英文识别，以获取所述英文语音音素序列；对所述唇语识别特征进行识别以获取唇语音素序列包括：对所述唇语识别特征进行中文识别，以获取所述中文唇语音素序列；对所述唇语识别特征进行英文识别，以获取所述英文唇语音素序列；所述语音语种概率包括所述英文语音音素序列为英文的语音英文概率、以及所述中文语音音素序列为中文的语音中文概率，所述唇语语种概率包括所述英文唇语音素序列为英文的唇语英文概率、以及所述中文唇语音素序列为中文的唇语中文概率。9.根据权利要求8所述的语种识别方法，其特征在于，根据所述语音语种概率以及所述唇语语种概率判断所述待识别视频的语种类型包括：根据所述语音英文概率、语音中文概率、唇语英文概率以及唇语中文概率判断所述待识别视频的语种类型。10.根据权利要求1所述的语种识别方法，其特征在于，利用N-gram模型计算所述语音音素序列的为预设语种的语音语种概率；和/或，利用N-gram模型所述唇语音素序列为预设语种的唇语语种概率。11.根据权利要求10所述的语种识别方法，其特征在于，所述N-gram模型中N值取2。12.根据权利要求1所述的语种识别方法，其特征在于，根据所述语音语种概率以及所述唇语语种概率判断所述待识别视频的语种类型包括：利用分类器判断所述待识别视频的语种类型。13.一种语种识别的训练方法，其特征在于，包括：确定训练语料，所述训练语料包括训练视频及对应的音素标注和语种标注；获取所述训练视频的语音识别特征以及唇语识别特征；利用训练视频的语音识别特征、唇语识别特征以及对应的音素标注对声学模型进行训练...

【专利技术属性】
技术研发人员：杨嵩，张邦鑫，黄琰，杨松帆，陈飞，
申请(专利权)人：北京易真学思教育科技有限公司，北京新唐思创教育科技有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人