文本分类模型的训练方法、文本分类方法、装置及设备制造方法及图纸

技术编号：27030649 阅读：26 留言：0更新日期：2021-01-12 11:13

本申请提供了一种文本分类模型的训练方法、文本分类方法、装置、电子设备及计算机可读存储介质；涉及人工智能技术；方法包括：基于第一语言的多个第一文本样本调用机器翻译模型，以获取与多个第一文本样本一一对应的多个第二文本样本；其中，多个第二文本样本采用不同于第一语言的第二语言；基于第二语言的多个第三文本样本以及分别对应的类别标签，训练用于第二语言的第一文本分类模型；通过训练后的第一文本分类模型对多个第二文本样本进行基于置信度的筛选处理；基于筛选处理得到的第二文本样本，训练用于第二语言的第二文本分类模型。通过本申请，能够自动获取跨语言的文本样本，提高文本分类的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
文本分类模型的训练方法、文本分类方法、装置及设备
本申请涉及人工智能技术，尤其涉及一种文本分类模型的训练方法、文本分类方法、装置、电子设备及计算机可读存储介质。
技术介绍
人工智能(ArtificialIntelligence，AI)是计算机科学的一个综合技术，通过研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，例如自然语言处理技术以及机器学习/深度学习等几大方向，随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。文本分类模型是人工智能领域的重要应用之一，文本分类模型可以识别出文本所属的类别。文本分类模型在新闻推荐、意图识别系统等中都有广泛的应用，即文本分类模型是这些复杂系统的基础组件。但是，相关技术中的文本分类模型是针对某一种语言，当将文本分类模型扩展到其他语言的文本分类时，该文本分类模型将会面临缺乏其他语言的标注样本的压力，无法顺利进行其他语言的文本分类任务。
技术实现思路
本申请实施例提供一种文本分类模型的训练方法、文本分类方法、装置、电子设备及计算机可读存储介质，能够自动获取跨语言的文本样本，提高文本分类的准确性。本申请实施例的技术方案是这样实现的：本申请实施例提供一种文本分类模型的训练方法，包括：基于第一语言的多个第一文本样本调用机器翻译模型，以获取与所述多个第一文本样本一一对应的多个第二文本样本；其中，所述多个第二文本样本采用不同于所述第一语言的第二语言；...

【技术保护点】
1.一种文本分类模型的训练方法，其特征在于，包括：/n基于第一语言的多个第一文本样本调用机器翻译模型，以获取与所述多个第一文本样本一一对应的多个第二文本样本；/n其中，所述多个第二文本样本采用不同于所述第一语言的第二语言；/n基于所述第二语言的多个第三文本样本以及分别对应的类别标签，训练用于所述第二语言的第一文本分类模型；/n通过训练后的所述第一文本分类模型对所述多个第二文本样本进行基于置信度的筛选处理；/n基于所述筛选处理得到的第二文本样本，训练用于所述第二语言的第二文本分类模型；/n其中，所述第二文本分类模型的网络深度大于所述第一文本分类模型的网络深度。/n

【技术特征摘要】
1.一种文本分类模型的训练方法，其特征在于，包括：
基于第一语言的多个第一文本样本调用机器翻译模型，以获取与所述多个第一文本样本一一对应的多个第二文本样本；
其中，所述多个第二文本样本采用不同于所述第一语言的第二语言；
基于所述第二语言的多个第三文本样本以及分别对应的类别标签，训练用于所述第二语言的第一文本分类模型；
通过训练后的所述第一文本分类模型对所述多个第二文本样本进行基于置信度的筛选处理；
基于所述筛选处理得到的第二文本样本，训练用于所述第二语言的第二文本分类模型；
其中，所述第二文本分类模型的网络深度大于所述第一文本分类模型的网络深度。

2.根据权利要求1所述的方法，其特征在于，所述基于所述第二语言的多个第三文本样本以及分别对应的类别标签，训练用于所述第二语言的第一文本分类模型，包括：
基于所述第二语言的多个第三文本样本以及分别对应的类别标签，对所述第一文本分类模型进行第t次训练；
通过第t次训练的所述第一文本分类模型对所述多个第二文本样本进行基于置信度的第t次筛选处理；
基于前t次筛选结果、所述多个第三文本样本以及分别对应的类别标签，对所述第一文本分类模型进行第t+1次训练；
将第T次训练的所述第一文本分类模型作为所述训练后的所述第一文本分类模型；
其中，t为取值范围满足1≤t≤T-1的整数，且取值从1开始递增，T为大于2的整数，用于表示迭代训练的总次数。

3.根据权利要求1所述的方法，其特征在于，所述基于所述筛选处理得到的第二文本样本，训练用于所述第二语言的第二文本分类模型，包括：
确定所述筛选处理得到的第二文本样本在多个类别的分布；
当所述筛选处理得到的第二文本样本在多个类别的分布满足分布均衡条件、且在每个类别的数量超出对应的类别数量阈值时，从所述筛选处理得到的第二文本样本中的每个类别的文本样本中，随机抽取对应所述类别数量阈值的文本样本以构建训练集；
基于所述训练集训练用于所述第二语言的第二文本分类模型。

4.根据权利要求1所述的方法，其特征在于，所述基于所述筛选处理得到的第二文本样本，训练用于所述第二语言的第二文本分类模型，包括：
当所述筛选处理得到的第二文本样本在多个类别的分布不满足分布均衡条件，针对对应类别的第二文本样本进行基于近义词的扩充处理，以使
所述扩充处理得到的第二文本样本在多个类别的分布满足所述分布均衡条件；
基于所述扩充处理得到的第二文本样本构建训练集；
基于所述训练集训练用于所述第二语言的第二文本分类模型。

5.根据权利要求1所述的方法，其特征在于，所述基于所述筛选处理得到的第二文本样本，训练用于所述第二语言的第二文本分类模型，包括：
基于所述多个第三文本样本以及所述筛选处理得到的第二文本样本构建训练集，基于所述训练集训练用于所述第二语言的第二文本分类模型。

6.根据权利要求5所述的方法，其特征在于，所述基于所述多个第三文本样本以及所述筛选处理得到的第二文本样本构建训练集，包括：
遍历所述筛选处理得到的第二文本样本的每个类别，执行以下处理：
当所述类别中的第二文本样本的数量低于所述类别的类别数量阈值时，将从所述多个第三文本样本中随机抽取所述类别的第三文本样本补充到所述类别的第二文本样本中，以更新所述筛选处理得到的第二文本样本；
基于更新后的所述筛选处理得到的第二文本样本，构建训练集。

7.根据权利要求1所述的方法，其特征在于，所述基于所述筛选处理得到的第二文本样本，训练用于所述第二语言的第二文本分类模型之前，所述方法还包括：
根据文本分类模型的算力与在单位时间内所能够运算的文本样本的数量的对应关系，确定与训练所述第二文本分类模型所能够使用的算力匹配的目标样本数量；
从基于所述筛选处理得到的第二文本样本构建的训练集中，筛选出对应所述目标样本数量的文本样本，以作为训练用于所述第二语言的第二文本分类模型的样本。

8.根据权利要求1所述的方法，其特征在于，所述基于所述第二语言的多个第三文本样本以及分别对应的类别标签，训练用于所述第二语言的第一文本分类模型，包括：
通过所述第一文...

【专利技术属性】
技术研发人员：缪畅宇，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人