文本分类模型的训练方法、文本分类方法、装置及设备制造方法及图纸

技术编号:27030649 阅读:26 留言:0更新日期:2021-01-12 11:13
本申请提供了一种文本分类模型的训练方法、文本分类方法、装置、电子设备及计算机可读存储介质;涉及人工智能技术;方法包括:基于第一语言的多个第一文本样本调用机器翻译模型,以获取与多个第一文本样本一一对应的多个第二文本样本;其中,多个第二文本样本采用不同于第一语言的第二语言;基于第二语言的多个第三文本样本以及分别对应的类别标签,训练用于第二语言的第一文本分类模型;通过训练后的第一文本分类模型对多个第二文本样本进行基于置信度的筛选处理;基于筛选处理得到的第二文本样本,训练用于第二语言的第二文本分类模型。通过本申请,能够自动获取跨语言的文本样本,提高文本分类的准确性。

【技术实现步骤摘要】
文本分类模型的训练方法、文本分类方法、装置及设备
本申请涉及人工智能技术,尤其涉及一种文本分类模型的训练方法、文本分类方法、装置、电子设备及计算机可读存储介质。
技术介绍
人工智能(ArtificialIntelligence,AI)是计算机科学的一个综合技术,通过研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,例如自然语言处理技术以及机器学习/深度学习等几大方向,随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。文本分类模型是人工智能领域的重要应用之一,文本分类模型可以识别出文本所属的类别。文本分类模型在新闻推荐、意图识别系统等中都有广泛的应用,即文本分类模型是这些复杂系统的基础组件。但是,相关技术中的文本分类模型是针对某一种语言,当将文本分类模型扩展到其他语言的文本分类时,该文本分类模型将会面临缺乏其他语言的标注样本的压力,无法顺利进行其他语言的文本分类任务。
技术实现思路
本申请实施例提供一种文本分类模型的训练方法、文本分类方法、装置、电子设备及计算机可读存储介质,能够自动获取跨语言的文本样本,提高文本分类的准确性。本申请实施例的技术方案是这样实现的:本申请实施例提供一种文本分类模型的训练方法,包括:基于第一语言的多个第一文本样本调用机器翻译模型,以获取与所述多个第一文本样本一一对应的多个第二文本样本;其中,所述多个第二文本样本采用不同于所述第一语言的第二语言;基于所述第二语言的多个第三文本样本以及分别对应的类别标签,训练用于所述第二语言的第一文本分类模型;通过训练后的所述第一文本分类模型对所述多个第二文本样本进行基于置信度的筛选处理;基于所述筛选处理得到的第二文本样本,训练用于所述第二语言的第二文本分类模型;其中,所述第二文本分类模型的网络深度大于所述第一文本分类模型的网络深度。上述技术方案中,所述基于所述筛选处理得到的第二文本样本,训练用于所述第二语言的第二文本分类模型,包括:通过所述第二文本分类模型对所述筛选处理得到的第二文本样本进行预测处理,得到所述筛选处理得到的第二文本样本对应的预测类别;基于所述筛选处理得到的第二文本样本对应的预测类别以及对应的类别标签,构建所述第二文本分类模型的损失函数;更新所述第二文本分类模型的参数直至所述损失函数收敛,将所述损失函数收敛时所述第二文本分类模型的更新的参数,作为训练后的所述第二文本分类模型的参数。上述技术方案中,所述第二文本分类模型包括多个级联的编码器;所述通过所述第二文本分类模型对所述筛选处理得到的第二文本样本进行预测处理,得到所述筛选处理得到的第二文本样本对应的预测类别,包括:针对所述筛选处理得到的第二文本样本中的任一文本样本执行以下处理:通过所述多个级联的编码器的第一个编码器,对所述文本样本进行所述第一个编码器的编码处理;将所述第一个编码器的编码结果输出到后续级联的编码器,以在所述后续级联的编码器中继续进行编码处理和编码结果输出,直至输出到最后一个编码器;将所述最后一个编码器输出的编码结果作为对应所述文本样本的编码向量;对所述文本样本的编码向量进行非线性映射,得到所述文本样本对应的预测类别。上述技术方案中,所述在所述后续级联的编码器中继续进行编码处理和编码结果输出,包括:通过所述多个级联的编码器的第y个编码器执行以下处理:对第y-1个编码器的编码结果进行自注意力处理,得到第y个自注意力向量;对所述第y个自注意力向量以及所述第y-1个编码器的编码结果进行残差连接处理,得到第y个残差向量;对所述第y个残差向量进行非线性映射处理,得到第y个映射向量;对所述第y个映射向量以及所述第y个残差向量进行残差连接处理,将残差连接的结果作为所述第y个编码器的编码结果,并将所述第y个编码器的编码结果输出到第y+1个编码器;其中,2≤y≤H-1,y为自然数,H为所述多个级联的编码器的数量。本申请实施例提供一种文本分类方法,包括:获取待分类文本;其中,所述待分类文本采用不同于第一语言的第二语言;通过网络深度大于第一文本分类模型的第二文本分类模型对所述待分类文本进行编码处理,得到所述待分类文本的编码向量;对所述待分类文本的编码向量进行非线性映射,得到所述待分类文本对应的类别;其中,所述第二文本分类模型是通过所述第一文本分类模型筛选得到的第二语言的文本样本训练得到的,所述第二语言的文本样本是通过对所述第一语言的文本样本进行机器翻译得到的。本申请实施例提供一种文本分类模型的训练装置,包括:翻译模块,用于基于第一语言的多个第一文本样本调用机器翻译模型,以获取与所述多个第一文本样本一一对应的多个第二文本样本;其中,所述多个第二文本样本采用不同于所述第一语言的第二语言;第一训练模块,用于基于所述第二语言的多个第三文本样本以及分别对应的类别标签,训练用于所述第二语言的第一文本分类模型;筛选模块,用于通过训练后的所述第一文本分类模型对所述多个第二文本样本进行基于置信度的筛选处理;第二训练模块,用于基于所述筛选处理得到的第二文本样本,训练用于所述第二语言的第二文本分类模型;其中,所述第二文本分类模型的网络深度大于所述第一文本分类模型的网络深度。本申请实施例提供一种文本分类装置,包括:获取模块,用于获取待分类文本;其中,所述待分类文本采用不同于第一语言的第二语言;处理模块,用于通过网络深度大于第一文本分类模型的第二文本分类模型对所述待分类文本进行编码处理,得到所述待分类文本的编码向量;对所述待分类文本的编码向量进行非线性映射,得到所述待分类文本对应的类别;其中,所述第二文本分类模型是通过所述第一文本分类模型筛选得到的第二语言的文本样本训练得到的,所述第二语言的文本样本是通过对所述第一语言的文本样本进行机器翻译得到的。本申请实施例提供一种用于文本分类模型训练的电子设备,所述电子设备包括:存储器,用于存储可执行指令;处理器,用于执行所述存储器中存储的可执行指令时,实现本申请实施例提供的文本分类模型的训练方法,或文本分类方法。本申请实施例提供一种计算机可读存储介质,存储有可执行指令,用于引起处理器执行时,实现本申请实施例提供的文本分类模型的训练方法,或文本分类方法。本申请实施例具有以下有益效果:通过机器翻译模型,获取采用不同于第一语言的第二语言的第二文本样本,并通过第一文本分类模型对第二文本样本进行筛选,从而实现自动获取跨语言的文本样本,降低由于缺乏文本样本所带来的压力;并且,通过筛选得到的优质文本样本训练第二文本分类模型,使得第二文本分类模型能够进行准确的文本分类,提高文本分类的准确性。附图说明图1是本申请实施例提供的文本分类系统的应本文档来自技高网...

【技术保护点】
1.一种文本分类模型的训练方法,其特征在于,包括:/n基于第一语言的多个第一文本样本调用机器翻译模型,以获取与所述多个第一文本样本一一对应的多个第二文本样本;/n其中,所述多个第二文本样本采用不同于所述第一语言的第二语言;/n基于所述第二语言的多个第三文本样本以及分别对应的类别标签,训练用于所述第二语言的第一文本分类模型;/n通过训练后的所述第一文本分类模型对所述多个第二文本样本进行基于置信度的筛选处理;/n基于所述筛选处理得到的第二文本样本,训练用于所述第二语言的第二文本分类模型;/n其中,所述第二文本分类模型的网络深度大于所述第一文本分类模型的网络深度。/n

【技术特征摘要】
1.一种文本分类模型的训练方法,其特征在于,包括:
基于第一语言的多个第一文本样本调用机器翻译模型,以获取与所述多个第一文本样本一一对应的多个第二文本样本;
其中,所述多个第二文本样本采用不同于所述第一语言的第二语言;
基于所述第二语言的多个第三文本样本以及分别对应的类别标签,训练用于所述第二语言的第一文本分类模型;
通过训练后的所述第一文本分类模型对所述多个第二文本样本进行基于置信度的筛选处理;
基于所述筛选处理得到的第二文本样本,训练用于所述第二语言的第二文本分类模型;
其中,所述第二文本分类模型的网络深度大于所述第一文本分类模型的网络深度。


2.根据权利要求1所述的方法,其特征在于,所述基于所述第二语言的多个第三文本样本以及分别对应的类别标签,训练用于所述第二语言的第一文本分类模型,包括:
基于所述第二语言的多个第三文本样本以及分别对应的类别标签,对所述第一文本分类模型进行第t次训练;
通过第t次训练的所述第一文本分类模型对所述多个第二文本样本进行基于置信度的第t次筛选处理;
基于前t次筛选结果、所述多个第三文本样本以及分别对应的类别标签,对所述第一文本分类模型进行第t+1次训练;
将第T次训练的所述第一文本分类模型作为所述训练后的所述第一文本分类模型;
其中,t为取值范围满足1≤t≤T-1的整数,且取值从1开始递增,T为大于2的整数,用于表示迭代训练的总次数。


3.根据权利要求1所述的方法,其特征在于,所述基于所述筛选处理得到的第二文本样本,训练用于所述第二语言的第二文本分类模型,包括:
确定所述筛选处理得到的第二文本样本在多个类别的分布;
当所述筛选处理得到的第二文本样本在多个类别的分布满足分布均衡条件、且在每个类别的数量超出对应的类别数量阈值时,从所述筛选处理得到的第二文本样本中的每个类别的文本样本中,随机抽取对应所述类别数量阈值的文本样本以构建训练集;
基于所述训练集训练用于所述第二语言的第二文本分类模型。


4.根据权利要求1所述的方法,其特征在于,所述基于所述筛选处理得到的第二文本样本,训练用于所述第二语言的第二文本分类模型,包括:
当所述筛选处理得到的第二文本样本在多个类别的分布不满足分布均衡条件,针对对应类别的第二文本样本进行基于近义词的扩充处理,以使
所述扩充处理得到的第二文本样本在多个类别的分布满足所述分布均衡条件;
基于所述扩充处理得到的第二文本样本构建训练集;
基于所述训练集训练用于所述第二语言的第二文本分类模型。


5.根据权利要求1所述的方法,其特征在于,所述基于所述筛选处理得到的第二文本样本,训练用于所述第二语言的第二文本分类模型,包括:
基于所述多个第三文本样本以及所述筛选处理得到的第二文本样本构建训练集,基于所述训练集训练用于所述第二语言的第二文本分类模型。


6.根据权利要求5所述的方法,其特征在于,所述基于所述多个第三文本样本以及所述筛选处理得到的第二文本样本构建训练集,包括:
遍历所述筛选处理得到的第二文本样本的每个类别,执行以下处理:
当所述类别中的第二文本样本的数量低于所述类别的类别数量阈值时,将从所述多个第三文本样本中随机抽取所述类别的第三文本样本补充到所述类别的第二文本样本中,以更新所述筛选处理得到的第二文本样本;
基于更新后的所述筛选处理得到的第二文本样本,构建训练集。


7.根据权利要求1所述的方法,其特征在于,所述基于所述筛选处理得到的第二文本样本,训练用于所述第二语言的第二文本分类模型之前,所述方法还包括:
根据文本分类模型的算力与在单位时间内所能够运算的文本样本的数量的对应关系,确定与训练所述第二文本分类模型所能够使用的算力匹配的目标样本数量;
从基于所述筛选处理得到的第二文本样本构建的训练集中,筛选出对应所述目标样本数量的文本样本,以作为训练用于所述第二语言的第二文本分类模型的样本。


8.根据权利要求1所述的方法,其特征在于,所述基于所述第二语言的多个第三文本样本以及分别对应的类别标签,训练用于所述第二语言的第一文本分类模型,包括:
通过所述第一文...

【专利技术属性】
技术研发人员:缪畅宇
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1