【技术实现步骤摘要】
基于自监督双粒度多图学习的文本分类方法
[0001]本专利技术涉及文本分类
,尤其涉及一种基于自监督双粒度多图学习的文本分类方法。
技术介绍
[0002]随着互联网的不断发展,网络上的文本数据日益增多,如果能对这些数据进行有效分类,那么更有利于从中挖掘出有价值的信息。因此,文本数据的管理和整合显得十分重要。文本分类是指用电脑对文本集(或其他实体或物体)按照一定的分类体系或标准,进行自动分类标注。
[0003]文本分类问题的关键在于从文本数据中提取能够尽可能表达文本信息的特征表示。传统的文本分类方法主要分为两种,即基于机器学习的文本分类方法和基于深度学习的文本分类方法。常见的基于机器学习的文本分类方法其思路是利用特征工程进行文本表示,再通过支持向量机(Support Vector Machine,SVM)、朴素贝叶斯(Naive Bayes,NB)、K近邻算法(K
‑
Nearest Neighbor,KNN)等分类器进行分类。相较于基于机器学习的文本分类方法,基于深度学习的文本分类方法通常利用自 ...
【技术保护点】
【技术特征摘要】
1.一种基于自监督双粒度多图学习的文本分类方法,其特征在于:包括以下步骤:步骤1:获得原始文本数据集与对应的标签集;步骤2:对原始文本数据集进行数据预处理,得到原始文本数据集对应的多图数据结构即图包,形成多图数据集;步骤3:利用增强编码器对图数据进行增强,并使用图编码器学习增强后的图表示;步骤4:将多头自注意力机制作用于图表示,学习图包中各个图之间的上下文信息,包含上下文信息的图表示基于相似性进行连接,生成包级图,并利用包编码器通过包级图学习包表示;步骤5:通过图
‑
图的学习机制同时学习图表示和包表示,并有效保留图包中图之间的上下文信息和全局结构关系;步骤6:设计包级对比损失和图级对比损失作为损失函数,在保证包级不变性和图级不变性的前提下,自监督地学习包表示和图表示;步骤7:对待分类的文本分类任务利用步骤6中学习到的包表示和图表示,在粗粒度和细粒度上对待分类的文本同时进行标签预测,实现文本分类。2.根据权利要求1所述的基于自监督双粒度多图学习的文本分类方法,其特征在于:所述步骤2的具体方法为:提取文本中关键词之间的关联性;然后以每篇文本的关键词作为节点,关键词之间的关联性作为边的权重值来构建一个图,并基于阈值移除小于给定阈值的边,将大于等于给定阈值的边权重值均设置为1,构成无向图;将原始文本数据集中每篇文本都表示为多图结构,构成图包B={g1,g2,...,g
n
},其中,g1,g2,...,g
n
表示所选文本构成的多个图。3.根据权利要求2所述的基于自监督双粒度多图学习的文本分类方法,其特征在于:所述步骤3的具体方法为:对多图数据集中所有的图数据采用增强编码器进行两次数据增强操作,由于图包中的每个图都进行了两次数据增强,会分别得到两组增强后的多图包;对图数据进行数据增强的增强编码器如下公式所示:f
aug
(G)={V,ε;∈}
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)其中,f
aug
表示增强编码器,G=(V,ε)表示图,V是顶点集,v
p
∈V,包含每个节点的属性信息;ε是边集,(v
p
,v
q
)∈ε,p≠q;∈是增强方法;被增强后的图表示为图包表示为:其中,表示增加后的图包;为了有效的保留多图数据集中图数据的结构信息,采用图编码器学习增强后的图表示,如下公式所示:其中,是图编码器所生成的图表示,是一个向量的形式,包含了增强图中所有的节点属性信息和内在结构关系;H
l
表示增强后的图中所有节点在神经网络第l层中的节点表示,每一层的节点表示通过函数f
genc
基于上一层的节点表示进行更新,初始时H0是增强图中所有节点的属性集,Λ是需要学习的神经网络层数;f
genc
是一个可学习的函数,用于更新每
一层的节点表示,其中,W
l
是可学习的权重矩阵,表示添加了自连接之后的邻接矩阵,A是邻接矩阵,I是单位阵,是由得到的度矩阵;f
p
是池化函数,用于通过学习到的节点表示求均值得到图表示。4.根据权利要求3所述的基于自监督双粒度多图学习的文本分类方法,其特征在于:所述步骤4的具体方法为:将多头自注意力机制作用于包中各个增强后的图表示,得到包含上下文信息的图表示;多头自注意力机制的公式如下公式所示:其中,W
′
是可学习的参数,head...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。