一种语种识别模型训练方法、语种识别方法、装置及电子设备制造方法及图纸

技术编号：33386793 阅读：15 留言：0更新日期：2022-05-11 23:01

本申请公开了一种语种识别模型训练方法、语种识别方法、装置及电子设备，该语种识别模型训练方法包括：将训练文本集输入第一语种识别模型，得到其中每个训练文本的词向量、对应的多个语种及每个语种的比例数据；基于训练文本集和词向量对特征获取子模型进行训练，得到训练好的特征获取子模型；将训练文本集输入训练好的特征获取子模型，得到每个训练文本的第一文本特征信息；基于多个语种、每个训练文本的第一文本特征信息、每个语种的比例数据和预设目标距离数据对预设聚类子模型进行训练，得到训练好的聚类子模型；将训练好的特征获取子模型和聚类子模型确定为第二语种识别模型。本发明专利技术可以高效准确的确定文本所属语种。发明专利技术可以高效准确的确定文本所属语种。发明专利技术可以高效准确的确定文本所属语种。

全部详细技术资料下载

【技术实现步骤摘要】
一种语种识别模型训练方法、语种识别方法、装置及电子设备

[0001]本专利技术涉及电子信息
，具体涉及深度学习技术，特别涉及一种语种识别模型训练方法、语种识别方法。

技术介绍

[0002]在经济全球化发展的今天，各国交往日益密切。在这一环境下，面临多语种数据带来的对文本理解的挑战，高效准确识别文本所属语种对于理解文本至关重要。为了解决多语种文本理解的难题，通过语种训练模型提取语言文本的表征向量，基于该文本的表征向量与各类语种的语种标准向量的相似度经训练模型计算可得到文本语种。但是现有技术所采用的语种识别方案准确率低，可靠性差，速度慢，不能满足当前对语种识别的需求。

技术实现思路

[0003]本专利技术的目的是提供一种语种识别模型训练方法、语种识别方法、装置及电子设备，可以通过算法技术高效处理大数据量的同时大大提高语种识别的准确度。
[0004]一方面，本专利技术提供了一种语种识别模型训练方法，包括：
[0005]将训练文本集输入第一语种识别模型，得到训练文本集中每个训练文本的词向量、对应的多个语种，以及每个语种的比例数据；
[0006]基于训练文本集、词向量对特征获取子模型进行训练，得到训练好的特征获取子模型；训练文本集中的训练文本携带有第一语种标签；
[0007]将训练文本集输入训练好的特征获取子模型，得到每个训练文本的第一文本特征信息；第一文本特征信息包括每个训练文本的词向量、词位置向量和文本向量；
[0008]基于多个语种、每个训练文本的第一文本特征...

【技术保护点】

【技术特征摘要】
1.一种语种识别模型训练方法，其特征在于，所述方法包括：将训练文本集输入第一语种识别模型，得到所述训练文本集中每个训练文本的词向量、对应的多个语种，以及每个语种的比例数据；基于所述训练文本集和所述词向量对特征获取子模型进行训练，得到训练好的特征获取子模型；所述训练文本集中的训练文本携带有第一语种标签；将所述训练文本集输入所述训练好的特征获取子模型，得到所述每个训练文本的第一文本特征信息；所述第一文本特征信息包括所述每个训练文本的词向量、词位置向量和文本向量；基于所述多个语种、每个训练文本的第一文本特征信息、所述每个语种的比例数据和预设目标距离数据对预设聚类子模型进行训练，得到训练好的聚类子模型；基于所述训练好的特征获取子模型和所述聚类子模型确定第二语种识别模型。2.根据权利要求1所述的方法，其特征在于，所述基于所述多个语种、每个训练文本的第一文本特征信息、所述每个语种的比例数据和预设目标距离数据对预设聚类子模型进行训练，得到训练好的聚类子模型，包括：确定语种平衡因子矩阵；基于所述语种平衡因子矩阵和所述每个语种的比例数据确定初始权值矩阵；基于所述多个语种设置预设聚类子模型；根据所述初始权值矩阵、所述每个训练文本的第一文本特征信息和所述预设目标距离数据对所述预设聚类子模型进行训练，得到训练好的聚类子模型。3.根据权利要求1所述的方法，其特征在于，所述将训练文本集输入第一语种识别模型，得到所述训练文本集中每个训练文本的词向量、对应的多个语种，以及每个语种的比例数据之前，还包括：获取待处理文本集；确定所述待处理文本集中每个待处理文本的文本长度；基于预设长度阈值和所述每个待处理文本的文本长度从所述待处理文本集中确定出训练文本集。4.根据权利要求3所述的方法，其特征在于，所述基于预设长度阈值和所述每个待处理文本的文本长度从所述待处理文本集中确定出训练文本集，包括：基于预设长度阈值和所述每个待处理文本的文本长度从所述待处理文本集中确定出过渡文本集；对所述过渡文本集中的过渡文本进行符号数字删除处理，得到所述训练文本集。5.根据权利要求1所述的方法，其特征在于，所述基于所述训练文本集、所述词向量对特征获取子模型进行训练，得到训练好的特征获取子模型，包括：构建深度学习模型；将所述每个训练文本和所述每个训练文本对应的词向量输入所述深度学习模型，得到每个训练文本的第二语种标签；基于所述第一语种标签和所述第二语种标签确...

【专利技术属性】
技术研发人员：侯兴翠，王化楠，王愚，
申请(专利权)人：连连杭州信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人