一种文本分类方法和相关装置制造方法及图纸

技术编号：27030651 阅读：24 留言：0更新日期：2021-01-12 11:13

本申请实施例公开了一种文本分类方法和相关装置，至少涉及人工智能中的自然语言处理和机器学习，获取对应第一语言的第一样本集合和对应第二语言的第二样本集合，第一样本集合中的第一文本样本和第二样本集合中的第二文本样本具有基于相同标注规则得到的标注标签，由此将第一样本集合和第二样本集合混合，以生成训练样本集合，并基于训练样本集合训练初始通用分类模型，训练过程中，第一文本样本和第二文本样本以类似交替的方式作为初始通用分类模型的输入数据，使得初始通用分类模型学习到与语言本身无关的分类特性。由此实现了借助大量准确的第一文本样本训练出可适用于在第二语言下进行文本分类的通用分类模型，提高了产品扩展业务的迭代速度。

全部详细技术资料下载

【技术实现步骤摘要】
一种文本分类方法和相关装置
本申请涉及数据处理领域，特别是涉及一种文本分类方法和相关装置。
技术介绍
文本分类常被应用在与文本内容相关的产品中，比如新闻分类、文章分类、意图分类等等，一般通过分类模型对新闻、文章、朋友圈、评论中的文本进行内容识别，分类来实现。一般情况下，用于文本分类的分类模型多是针对某一语言的文本，比如中文、英文等等，但当产品需要拓展其他语言业务时，原本实用的网络模型将无法在新语言场景中使用，只能重新训练适用于新语言场景的分类模型。然而，在扩展语言业务的初期，用于训练分类模型所需的标注文本数量很少，只能通过人工标注的方式慢慢积累才能达到实现模型训练的样本体量，由此导致训练分类模型的周期很长，不利于产品的快速迭代。
技术实现思路
为了解决上述技术问题，本申请提供了一种文本分类方法和相关装置，不再需要等待人工标注出足量新语言文本样本的时间，提高了产品扩展业务的迭代速度。本申请实施例公开了如下技术方案：一方面，本申请提供一种文本分类方法，所述方法包括：获取对应第一语言的第一样本集合和对应第二语言的第二样本集合，所述第一样本集合包括第一数量的第一文本样本，所述第二样本集合包括第二数量的第二文本样本，所述第一文本样本和所述第二文本样本具有基于相同标注规则得到的标注标签，所述第一数量大于所述第二数量；根据所述第一样本集合和所述第二样本集合生成训练样本集合；基于所述训练样本集合训练初始通用分类模型，得到通用分类模型，在训练所述初始通用分类模型时，用...

【技术保护点】
1.一种文本分类方法，其特征在于，所述方法包括：/n获取对应第一语言的第一样本集合和对应第二语言的第二样本集合，所述第一样本集合包括第一数量的第一文本样本，所述第二样本集合包括第二数量的第二文本样本，所述第一文本样本和所述第二文本样本具有基于相同标注规则得到的标注标签，所述第一数量大于所述第二数量；/n根据所述第一样本集合和所述第二样本集合生成训练样本集合；/n基于所述训练样本集合训练初始通用分类模型，得到通用分类模型，在训练所述初始通用分类模型时，用于输入所述初始通用分类模型的输入序列中所述第一文本样本和所述第二文本样本混合排列；/n通过所述通用分类模型对未标注文本进行分类标注，所述未标注文本为对应所述第二语言的文本。/n

【技术特征摘要】
1.一种文本分类方法，其特征在于，所述方法包括：
获取对应第一语言的第一样本集合和对应第二语言的第二样本集合，所述第一样本集合包括第一数量的第一文本样本，所述第二样本集合包括第二数量的第二文本样本，所述第一文本样本和所述第二文本样本具有基于相同标注规则得到的标注标签，所述第一数量大于所述第二数量；
根据所述第一样本集合和所述第二样本集合生成训练样本集合；
基于所述训练样本集合训练初始通用分类模型，得到通用分类模型，在训练所述初始通用分类模型时，用于输入所述初始通用分类模型的输入序列中所述第一文本样本和所述第二文本样本混合排列；
通过所述通用分类模型对未标注文本进行分类标注，所述未标注文本为对应所述第二语言的文本。

2.根据权利要求1所述的方法，其特征在于，所述基于所述训练样本集合训练初始通用分类模型，得到通用分类模型，包括以下任一方式，或多种方式的组合：
方式一：将所述训练样本集合中的所述第一文本样本和所述第二文本样本混合排列，并基于所述训练样本集合训练所述初始通用分类模型，得到通用分类模型；或，
方式二：从所述训练样本集合中随机抽取所述第一文本样本或所述第二文本样本作为所述初始通用分类模型输入，以对所述初始通用分类模型进行训练，得到通用分类模型。

3.根据权利要求1所述的方法，其特征在于，所述根据所述第一样本集合和所述第二样本集合生成训练样本集合，包括：
基于所述第一数量，根据所述第二文本样本对所述第二样本集合进行样本数量扩充，得到扩充后的第二样本集合；
根据所述第一样本集合和所述扩充后的第二样本集合生成训练样本集合。

4.根据权利要求1所述的方法，其特征在于，在所述基于所述训练样本集合训练初始通用分类模型的过程中，包括：
针对从所述训练样本集合中提取的第一文本样本，通过第一特征模型提取所述第一文本样本的文本特征；
根据所述第一文本样本的文本特征，通过所述初始通用分类模型得到对应的第一待定标签；
根据所述第一待定标签和所述第一文本样本对应的标注标签调整所述初始通用分类模型的模型参数；
针对从所述训练样本集合中提取的第二文本样本，通过第二特征模型提取所述第二文本样本的文本特征；
根据所述第二文本样本的文本特征，通过所述初始通用分类模型得到对应的第二待定标签；
根据所述第二待定标签和所述第二文本样本对应的标注标签调整所述初始通用分类模型的模型参数。

5.根据权利要求1-4任意一项所述的方法，其特征在于，所述通用分类模型通过所述训练确定所述第一语言和所述第二语言的文本特征分别对应的空间分布信息，以及所述第一语言和所述第二语言中具有相同含义的文本所对应文本特征间的空间映射关系。

...

【专利技术属性】
技术研发人员：缪畅宇，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人