一种语种识别模型训练方法、语种识别方法、装置及电子设备制造方法及图纸

技术编号:33386793 阅读:15 留言:0更新日期:2022-05-11 23:01
本申请公开了一种语种识别模型训练方法、语种识别方法、装置及电子设备,该语种识别模型训练方法包括:将训练文本集输入第一语种识别模型,得到其中每个训练文本的词向量、对应的多个语种及每个语种的比例数据;基于训练文本集和词向量对特征获取子模型进行训练,得到训练好的特征获取子模型;将训练文本集输入训练好的特征获取子模型,得到每个训练文本的第一文本特征信息;基于多个语种、每个训练文本的第一文本特征信息、每个语种的比例数据和预设目标距离数据对预设聚类子模型进行训练,得到训练好的聚类子模型;将训练好的特征获取子模型和聚类子模型确定为第二语种识别模型。本发明专利技术可以高效准确的确定文本所属语种。发明专利技术可以高效准确的确定文本所属语种。发明专利技术可以高效准确的确定文本所属语种。

【技术实现步骤摘要】
一种语种识别模型训练方法、语种识别方法、装置及电子设备


[0001]本专利技术涉及电子信息
,具体涉及深度学习技术,特别涉及一种语种识别模型训练方法、语种识别方法。

技术介绍

[0002]在经济全球化发展的今天,各国交往日益密切。在这一环境下,面临多语种数据带来的对文本理解的挑战,高效准确识别文本所属语种对于理解文本至关重要。为了解决多语种文本理解的难题,通过语种训练模型提取语言文本的表征向量,基于该文本的表征向量与各类语种的语种标准向量的相似度经训练模型计算可得到文本语种。但是现有技术所采用的语种识别方案准确率低,可靠性差,速度慢,不能满足当前对语种识别的需求。

技术实现思路

[0003]本专利技术的目的是提供一种语种识别模型训练方法、语种识别方法、装置及电子设备,可以通过算法技术高效处理大数据量的同时大大提高语种识别的准确度。
[0004]一方面,本专利技术提供了一种语种识别模型训练方法,包括:
[0005]将训练文本集输入第一语种识别模型,得到训练文本集中每个训练文本的词向量、对应的多个语种,以及每个语种的比例数据;
[0006]基于训练文本集、词向量对特征获取子模型进行训练,得到训练好的特征获取子模型;训练文本集中的训练文本携带有第一语种标签;
[0007]将训练文本集输入训练好的特征获取子模型,得到每个训练文本的第一文本特征信息;第一文本特征信息包括每个训练文本的词向量、词位置向量和文本向量;
[0008]基于多个语种、每个训练文本的第一文本特征信息、每个语种的比例数据和预设目标距离数据对预设聚类子模型进行训练,得到训练好的聚类子模型;
[0009]基于训练好的特征获取子模型和聚类子模型确定第二语种识别模型。
[0010]在一个可选的实施例中,基于多个语种、每个训练文本的第一文本特征信息、每个语种的比例数据和预设目标距离数据对预设聚类子模型进行训练,得到训练好的聚类子模型,包括:
[0011]确定语种平衡因子矩阵;
[0012]基于语种平衡因子矩阵和每个语种的比例数据确定初始权值矩阵;
[0013]基于多个语种设置预设聚类子模型;
[0014]根据初始权值矩阵、每个训练文本的第一文本特征信息和预设目标距离数据对预设聚类子模型进行训练,得到训练好的聚类子模型。
[0015]在一个可选的实施例中,将将训练文本集输入第一语种识别模型,得到训练文本集中每个训练文本的词向量、对应的多个语种,以及每个语种的比例数据之前,还包括:
[0016]获取待处理文本集;
[0017]确定待处理文本集中每个待处理文本的文本长度;
[0018]基于预设长度阈值和每个待处理文本的文本长度从待处理文本集中确定出训练文本集。
[0019]在一个可选的实施例中,基于预设长度阈值和每个待处理文本的文本长度从待处理文本集中确定出训练文本集,包括:
[0020]基于预设长度阈值和每个待处理文本的文本长度从待处理文本集中确定出过渡文本集;
[0021]对过渡文本集中的过渡文本进行符号数字删除处理,得到训练文本集。
[0022]在一个可选的实施例中,基于训练文本集和词向量对特征获取子模型进行训练,得到训练好的特征获取子模型,包括:
[0023]构建深度学习模型;
[0024]将每个训练文本和每个训练文本对应的词向量输入深度学习模型,得到每个训练文本的第二语种标签;
[0025]基于第一语种标签和第二语种标签确定损失值;
[0026]基于损失值对深度学习模型进行训练;
[0027]从训练好的深度学习模型中确定训练好的特征获取子模型。
[0028]第二方面,本专利技术还提供了一种语种识别方法,包括:
[0029]获取待识别文本;
[0030]将待识别文本输入上述任一语种识别模型训练方法训练得到的第二语种识别模型,对待识别文本进行语种识别,确定待识别文本的所属语种。
[0031]第三方面,本专利技术还提供了一种语种识别模型训练装置,包括:
[0032]预训练模块,用于将训练文本集输入第一语种识别模型,得到训练文本集中每个训练文本的词向量、对应的多个语种,以及每个语种的比例数据;
[0033]第一训练模块,用于基于训练文本集、词向量对特征获取子模型进行训练,得到训练好的特征获取子模型;训练文本集中的训练文本携带有第一语种标签;
[0034]特征信息确定模块,用于将训练文本集输入训练好的特征获取子模型,得到每个训练文本的第一文本特征信息;第一文本特征信息包括每个训练文本的词向量、词位置向量和文本向量;
[0035]第二训练模块,用于基于多个语种、每个训练文本的第一文本特征信息、每个语种的比例数据和预设目标距离数据对预设聚类子模型进行训练,得到训练好的聚类子模型;
[0036]模型确定模块,用于基于训练好的特征获取子模型和聚类子模型确定为第二语种识别模型。
[0037]第四方面,本专利技术还提供了一种语种识别装置,包括:
[0038]待识别文本确定模块,用于获取待识别文本;
[0039]语种识别模块,用于将待识别文本输入上述任一语种识别模型训练方法训练得到的第二语种识别模型,对待识别文本进行语种识别,确定待识别文本的所属语种。
[0040]第五方面,本专利技术还提供了一种电子设备,包括:
[0041]处理器;
[0042]用于存储处理器可执行指令的存储器;
[0043]其中,处理器用于执行指令,以实现上述语种识别模型训练方法或上述语种识别
方法。
[0044]第六方面,本专利技术还提供了一种存储介质,当存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行上述语种识别模型训练方法或上述语种识别方法。
[0045]第七方面,本专利技术还提供了一种计算机程序产品,计算机程序产品包括计算机程序,计算机程序存储在可读存储介质中,计算机设备的至少一个处理器从可读存储介质读取并执行计算机程序,使得设备执行上述语种识别模型训练方法或上述语种识别方法。
[0046]本申请实施例提供的一种语种识别模型训练方法、语种识别方法、装置及电子设备,具有如下技术效果:
[0047]将训练文本集输入第一语种识别模型,得到训练文本集中每个训练文本的词向量、对应的多个语种,以及每个语种的比例数据;基于训练文本集、词向量对特征获取子模型进行训练,得到训练好的特征获取子模型;训练文本集中的训练文本携带有第一语种标签;将训练文本集输入训练好的特征获取子模型,得到每个训练文本的第一文本特征信息;第一文本特征信息包括每个训练文本的词向量、词位置向量和文本向量;基于多个语种、每个训练文本的第一文本特征信息、每个语种的比例数据和预设目标距离数据对预设聚类子模型进行训练,得到训练好的聚类子模型;基于训练好的特征获取子模型和聚类子模型确定为第二语种识别模型。
[0048]本专利技术基于跨境电商本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语种识别模型训练方法,其特征在于,所述方法包括:将训练文本集输入第一语种识别模型,得到所述训练文本集中每个训练文本的词向量、对应的多个语种,以及每个语种的比例数据;基于所述训练文本集和所述词向量对特征获取子模型进行训练,得到训练好的特征获取子模型;所述训练文本集中的训练文本携带有第一语种标签;将所述训练文本集输入所述训练好的特征获取子模型,得到所述每个训练文本的第一文本特征信息;所述第一文本特征信息包括所述每个训练文本的词向量、词位置向量和文本向量;基于所述多个语种、每个训练文本的第一文本特征信息、所述每个语种的比例数据和预设目标距离数据对预设聚类子模型进行训练,得到训练好的聚类子模型;基于所述训练好的特征获取子模型和所述聚类子模型确定第二语种识别模型。2.根据权利要求1所述的方法,其特征在于,所述基于所述多个语种、每个训练文本的第一文本特征信息、所述每个语种的比例数据和预设目标距离数据对预设聚类子模型进行训练,得到训练好的聚类子模型,包括:确定语种平衡因子矩阵;基于所述语种平衡因子矩阵和所述每个语种的比例数据确定初始权值矩阵;基于所述多个语种设置预设聚类子模型;根据所述初始权值矩阵、所述每个训练文本的第一文本特征信息和所述预设目标距离数据对所述预设聚类子模型进行训练,得到训练好的聚类子模型。3.根据权利要求1所述的方法,其特征在于,所述将训练文本集输入第一语种识别模型,得到所述训练文本集中每个训练文本的词向量、对应的多个语种,以及每个语种的比例数据之前,还包括:获取待处理文本集;确定所述待处理文本集中每个待处理文本的文本长度;基于预设长度阈值和所述每个待处理文本的文本长度从所述待处理文本集中确定出训练文本集。4.根据权利要求3所述的方法,其特征在于,所述基于预设长度阈值和所述每个待处理文本的文本长度从所述待处理文本集中确定出训练文本集,包括:基于预设长度阈值和所述每个待处理文本的文本长度从所述待处理文本集中确定出过渡文本集;对所述过渡文本集中的过渡文本进行符号数字删除处理,得到所述训练文本集。5.根据权利要求1所述的方法,其特征在于,所述基于所述训练文本集、所述词向量对特征获取子模型进行训练,得到训练好的特征获取子模型,包括:构建深度学习模型;将所述每个训练文本和所述每个训练文本对应的词向量输入所述深度学习模型,得到每个训练文本的第二语种标签;基于所述第一语种标签和所述第二语种标签确...

【专利技术属性】
技术研发人员:侯兴翠王化楠王愚
申请(专利权)人:连连杭州信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1