一种语种识别方法、装置、翻译机、介质和设备制造方法及图纸

技术编号：20007017 阅读：34 留言：0更新日期：2019-01-05 18:39

本发明专利技术涉及语音技术领域，特别涉及一种语种识别方法、装置、翻译机、介质和设备。在进行语种识别时，通过语种识别模型进行第一语种和非第一语种的识别。若第一语种的概率较高，则识别为第一语种，反之，则可以进一步根据本次选择的语种互译范围中包括第一语种和第二语种，确定识别出的非第一语种为第二语种，从而确定采集到的语音时域信号的语种是第一语种还是第二语种。从而可以在进行第一语种和非第一语种区分的基础上，结合语种互译范围确定非第一语种的具体语种为第二语种，无需利用语种识别模型进行第二语种的具体识别，降低语种识别成本，减小实现难度。

A Language Recognition Method, Device, Translator, Media and Equipment

The invention relates to the field of speech technology, in particular to a language recognition method, device, translator, medium and equipment. In the process of language recognition, the first language and non-first language are recognized by language recognition model. If the probability of the first language is high, it can be recognized as the first language. On the contrary, the non-first language can be identified as the second language according to the range of the first language and the second language, so as to determine whether the language of the collected speech time domain signal is the first language or the second language. Therefore, on the basis of distinguishing the first language from the non-first language, the specific language of the non-first language can be determined as the second language according to the scope of intertranslation, without using the language recognition model to identify the second language, so as to reduce the cost of language recognition and the difficulty of realization.

全部详细技术资料下载

【技术实现步骤摘要】
一种语种识别方法、装置、翻译机、介质和设备
本专利技术涉及语音
，特别涉及一种语种识别方法、装置、翻译机、介质和设备。
技术介绍
语音的语种识别技术是计算机自动识别出语音段所属语言种类的过程。自动语种识别通常包括训练阶段和识别阶段。在训练阶段，需要获取大量的涵盖需要识别的语言种类的语料(语言材料，即训练样本)，并利用针对获取的大量语料提取出的特征，对语种识别模型进行训练，使得后续在识别阶段，可以基于训练出的语种识别模型进行语种识别。目前语种识别技术存在语种识别成本较高、实现难度大的问题，主要原因如下：现有的语种识别流程中，在训练阶段，获得的训练样本需要与该语种识别模型需要识别的语种相对应。例如，在需要识别汉语语种、英语语种和法语语种时，需要获取汉语训练样本、英语训练样本和法语训练样本，对获取的训练样本进行特征提取，并利用提取的特征对语种识别模型进行训练，得到可以对汉语语种、英语语种和法语语种进行识别的语种识别模型。在识别阶段，对需要识别的语音信号进行特征提取，将提取出的特征输入语种识别模型进行识别，通过相似度比较以及判决规则的判断，可以对需要识别的语音信号的...

【技术保护点】
1.一种语种识别方法，其特征在于，所述方法包括：采集语音时域信号；利用预先训练出的语种识别模型，确定所述语音时域信号对应的语种；若确定所述语音时域信号对应的语种为非第一语种，获取本次选择的语种互译范围，所述语种互译范围包括第一语种和第二语种互译；根据所获取的语种互译范围，确定所述语音时域信号对应的语种为所述第二语种。

【技术特征摘要】
1.一种语种识别方法，其特征在于，所述方法包括：采集语音时域信号；利用预先训练出的语种识别模型，确定所述语音时域信号对应的语种；若确定所述语音时域信号对应的语种为非第一语种，获取本次选择的语种互译范围，所述语种互译范围包括第一语种和第二语种互译；根据所获取的语种互译范围，确定所述语音时域信号对应的语种为所述第二语种。2.如权利要求1所述的方法，其特征在于，所述语种识别模型是利用所述第一语种对应的第一训练样本以及第二训练样本训练得到，所述第二训练样本中包括至少一种非第一语种对应的训练样本。3.如权利要求2所述的方法，其特征在于，所述至少一种非第一语种对应的训练样本中，包括所述第二语种对应的训练样本，或者不包括所述第二语种对应的训练样本。4.如权利要求2所述的方法，其特征在于，所述语种识别模型通过以下方式训练得到：获取训练样本，所述训练样本包括所述第一训练样本以及所述第二训练样本；针对每个训练样本，执行以下操作：确定所述训练样本中的每一语音帧对应的语音特征序列；将所述语音特征序列作为输入，训练对应的语种识别模型。5.如权利要求4所述的方法，其特征在于，将所述语音特征序列作为输入，训练对应的语种识别模型之前，该方法进一步包括：对确定出的语音特征序列进行池化，得到所述训练样本对应的语音特征序列。6.如权利要求1所述的方法，其特征在于，利用预先训...

【专利技术属性】
技术研发人员：李宝祥，吕安超，钟贵平，
申请(专利权)人：北京猎户星空科技有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人