一种多标签文本主题分类方法及装置制造方法及图纸

技术编号：41380134 阅读：25 留言：0更新日期：2024-05-20 10:22

本发明专利技术涉及多标签文本主题分类方法，通过对文本‑标签进行交互注意力计算、对标签‑文本进行交互注意力计算，将文本和标签进行相互关注，构建文本关注的标签表示和标签关注的文本表示，使模型能够更加准确地关注文本和标签的相关部分，更加关注可能正确的标签，从而提高文本主题分类的准确性。同时，采用元校准阈值方法，通过在标签信息丰富的训练样本中学习通用阈值经验获得初始阈值，使用核回归进行阈值校准，解决多标签文本分类中标签不平衡导致的少数标签的分类预测出现误差的问题，进一步提高文本主题分类的准确性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及文本多标签分类的自然语言处理，尤其涉及一种多标签文本主题分类方法及装置。

技术介绍

1、自然语言处理(nlp)中文本分类的应用十分广泛，根据标签分类的数量主要分为单标签文本分类和多标签文本分类。在新闻分类、商品推荐等的实际应用中，通常一个文本具有多个符合语义的标签对其进行描述，即文本内容与多个事务产生联系且事务间存在相互关联的情况，在此种情况下，就需要采用多标签文本分类对上述应用场景的文本数据进行合理分类和归纳。通过多标签文本分类，能有效管理文本数据，即细致划分和描述文本的各个方面和维度，从而有助于建立精确的文本索引和标签体系，提高信息检索和筛选效率。

2、现有的多标签文本分类任务中存在长尾问题，即一些标签的样本数非常少，而大部分标签对应的样本数较多，导致数据集中存在不均衡的标签分布。对于少数标签而言，由于样本数量较少，模型很难从有限的样本中学习到有效的特征，从而导致模型对少数标签的分类预测出现误差。

技术实现思路

1、基于此，本专利技术的目的在于提供一种多标签文...

【技术保护点】

1.一种多标签文本主题分类方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的主题分类方法，其特征在于，所述步骤S20包括以下子步骤：

3.根据权利要求2所述的主题分类方法，其特征在于，所述步骤S22-A对输入的标签编码向量L与文本编码向量X进行下述交互注意力计算：

4.根据权利要求2所述的主题分类方法，其特征在于，所述步骤S22-B对输入的文本编码向量X与标签编码向量L进行下述交互注意力计算：

5.根据权利要求1-4任一项所述的主题分类方法，其特征在于，所述步骤S30包括以下子步骤：

6.根据权利要求5所述的主题分类方法...

【技术特征摘要】

1.一种多标签文本主题分类方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的主题分类方法，其特征在于，所述步骤s20包括以下子步骤：

3.根据权利要求2所述的主题分类方法，其特征在于，所述步骤s22-a对输入的标签编码向量l与文本编码向量x进行下述交互注意力计算：

4.根据权利要求2所述的主题分类方法，其特征在于，所述步骤s22-b对输入的文本编码向量x与标签编码向量l进行下述交互注意力计算：

5.根据权利要求1-4任一...

【专利技术属性】
技术研发人员：冼广铭，郭倩伶，罗涌升，
申请(专利权)人：华南师范大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人