【技术实现步骤摘要】
本专利技术涉及文本多标签分类的自然语言处理,尤其涉及一种多标签文本主题分类方法及装置。
技术介绍
1、自然语言处理(nlp)中文本分类的应用十分广泛,根据标签分类的数量主要分为单标签文本分类和多标签文本分类。在新闻分类、商品推荐等的实际应用中,通常一个文本具有多个符合语义的标签对其进行描述,即文本内容与多个事务产生联系且事务间存在相互关联的情况,在此种情况下,就需要采用多标签文本分类对上述应用场景的文本数据进行合理分类和归纳。通过多标签文本分类,能有效管理文本数据,即细致划分和描述文本的各个方面和维度,从而有助于建立精确的文本索引和标签体系,提高信息检索和筛选效率。
2、现有的多标签文本分类任务中存在长尾问题,即一些标签的样本数非常少,而大部分标签对应的样本数较多,导致数据集中存在不均衡的标签分布。对于少数标签而言,由于样本数量较少,模型很难从有限的样本中学习到有效的特征,从而导致模型对少数标签的分类预测出现误差。
技术实现思路
1、基于此,本专利技术的目的在于提供一种多标签文
...【技术保护点】
1.一种多标签文本主题分类方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的主题分类方法,其特征在于,所述步骤S20包括以下子步骤:
3.根据权利要求2所述的主题分类方法,其特征在于,所述步骤S22-A对输入的标签编码向量L与文本编码向量X进行下述交互注意力计算:
4.根据权利要求2所述的主题分类方法,其特征在于,所述步骤S22-B对输入的文本编码向量X与标签编码向量L进行下述交互注意力计算:
5.根据权利要求1-4任一项所述的主题分类方法,其特征在于,所述步骤S30包括以下子步骤:
6.根据权利要求
...【技术特征摘要】
1.一种多标签文本主题分类方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的主题分类方法,其特征在于,所述步骤s20包括以下子步骤:
3.根据权利要求2所述的主题分类方法,其特征在于,所述步骤s22-a对输入的标签编码向量l与文本编码向量x进行下述交互注意力计算:
4.根据权利要求2所述的主题分类方法,其特征在于,所述步骤s22-b对输入的文本编码向量x与标签编码向量l进行下述交互注意力计算:
5.根据权利要求1-4任一...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。