【技术实现步骤摘要】
基于半监督的图卷积神经网络的文本分类方法
[0001]本专利技术涉及人工智能领域,具体是一种基于半监督的图卷积神经网络的文本分类方法。
技术介绍
[0002]自然语义文档也包含了内部图结构,例如句法和语义分析树,它们定义了句子中单词之间的句法/语义关系,已有研究者借助图结构试图阐明其中的作用关系,因此,有研究者开始考虑文档中的图结构对文档特征表示的影响,另一面,文档与文档之间也存在相互作用关系,所熟知的具有相同语义的文档具有相似的分布,而非相似的文档具有不同的分布,即可以推测:文本的特征表示可以依赖于相近的文档特征。而文档于文档之间的作用关系,可以转化为图结构表示。同时受限于标记数据稀疏的影响,无法有效的进行监督学习。因此将利用图的可传播的优点,结合图节点的特征表示学习,设计依托于文本与文本之间的交互关系半监督学习文本分类框架。已有研究展开了基于图结构的文本分类,
[0003]如TextRank最早探究图结构应用于文本分类的模型,图结构中的节点可以是文档或单词等,而边的关系可以是语义关系或词汇关系等。
[00 ...
【技术保护点】
【技术特征摘要】
1.一种基于半监督的图卷积神经网络的文本分类方法,其特征在于通过文本分类模型实现文本分类,所述文本分类模型的构建包括以下步骤:S1、构建句子或者文档的特征编码:将输入的句子或者文档输入到BERT模型中,并采用谷歌开源的训练好的模型参数,对句子进行编码,抽取BERT最后一层输出序列中的第一个向量作为句子或者段落的特征编码向量;S2、构建文档
‑
文档的关系图:考虑文档与文档之间的关关系,基于以下两条规则:(1)图中的每一个节点表示文档;(2)依据文档之间的相似度建议文档与文档之间的关系,即如果文档与文档之间的语义相似度超过阈值,则两文档之间建立边的联系,否则,没有边关系;S3、文档节点的特征表示学习:将构建的句子或者段落的特征编码向量作为文档节点的特征,该特征为该节点的初始化向量,然后通过两层的图卷积操作,聚合其自身特征和邻居节点的特征,最后通过一层全连接层并经过激活函数softmax输出其标签分布;S4、文档节点的标签类别推断:对于已知真实标签的节点采用其原始标签,对于未知标签的节点通过S3的方式对其进行计算,将通过S3预测输出的标签分布,然后采用基于图的传播的方式,根据邻居节点的标签预测该未知节点的标签。2.根据权利要求1所述的方法,其特征在于S1中给定文档DOC={w1,w2,w3…
w
L
},其中w
i
代表文档DOC中第i个位置上的单词,L代表文档中单词的个数,采用预训练模型Bert将文档固定成特定维度的向量作为文档的语义特征表示,即:X=BERT(DOC)式中,x∈R
m
表示文档DOC的特征向量,其维度为m维。3.根据权利要求1所述的方法,其特征在于S2中采用如下公式构建文档与文档之间的关系:Sim=consine(x
i
,x
j
)式中,Sim表示图中节点x
i
和x
j
之间的相似度,即两文档之间的语义相似度,α是超参数;e(i,j)表示图中节点i和节点j之间的边关系。4.根据权利要求1所述的方法,其特征在于S3中采用A表示图的连接矩阵,然后采用X
(1)
表示节点的特征向量,X
(2)
表示带标记数据的标签分布;标签分布预测模型定义为:将BERT输出的...
【专利技术属性】
技术研发人员:曹杰,申冬琴,陈蕾,王煜尧,郭翔,
申请(专利权)人:南京理工大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。