一种基于图卷积神经网络的文本分类方法、系统技术方案

技术编号:24331258 阅读:140 留言:0更新日期:2020-05-29 19:40
本发明专利技术通过图神经网络建模的方法,设计一种基于图卷积神经网络的文本分类方法、系统,其方法主要包括三个步骤:输入文本,相似性图的构建;深度学习模型的构建;由相似性图和深度学习模型构成文本分类方法总体模型,进行文本分类。通过上述方法,我们基于文本相似性图、图卷积网络和图注意力网络,提出了一种高效的文本分类方法,即只需要输入源文本,即能够自动对文本进行分类,并在模型的基础上结合硬件构成系统。

A text classification method and system based on graph convolution neural network

【技术实现步骤摘要】
一种基于图卷积神经网络的文本分类方法、系统
本专利技术涉及神经网络领域,尤其涉及一种基于图卷积神经网络的文本分类方法。
技术介绍
近来,已经有大量的研究集中在图结构的数据上,图是可以在很多方面使用的数据结构。图卷积网络(GCN)为我们提供了一种非常有效的方法来分析图结构数据。它是使用邻域信息的非常强大的模型,这种特殊卷积在研究中得到了广泛的应用。到目前为止,它已经在多个方面做了很多工作。最近的工作主要集中在以下四个方面:使用图形方法的社区检测、恶意软件检测、视频或图片中的对象或显着性检测,以及互联网安全。还有几个其他方面,例如计算机视觉和对社交网络的研究。在本次研究中,我们主要将这一模型应用于文本的分类。在本专利技术中,我们将简化图卷积网络和图注意力网络复合,在降低图卷积神经网络的计算消耗的同时利用图注意力网络提高分类的准确率,并且我们还基于图节点之间的相似性引入了一种新方法来构建图。然后,我们将该图导入网络中来完成文本分类。
技术实现思路
现有的文本分类算法的主要问题的文本表示是高维度高稀疏的,特征表达能力较弱,此外需要人工进行特征工程,成本较高。而深度学习最初在图像和语音取得巨大成功,也相应的推动了深度学习在NLP上的发展,使得深度学习的模型在文本分类上也取得了不错的效果。为达到上述目的,本专利技术采用了下列技术方案:一种基于图卷积神经网络的文本分类方法,包括:步骤一:输入文本,相似性图的构建,在一个每个文本都有一个包含基本特征的多维元组数据库中,基于多个文本的数据集,构造邻接矩阵,将每个文本定义为一个节点,两个节点之间的边的存在性由这两个节点之间的相似性决定,如果相似度大于一特定值,则在这些节点之间将生成一条边,以此对图中的节点进行二进制分类;步骤二:深度学习模型的构建,使用一种简化图卷积神经网络与一种图注意力神经网络,并结合Softmax函数实现;步骤三:由相似性图和深度学习模型构成文本分类方法总体模型,输出分类后的文本,其中所述文本分类方法总体模型通过使用所述简化图卷积神经网络和所述图注意力网络并结合Softmax函数实现。步骤一中,两个节点之间的相似性计算方式为:所述两个节点之间的相似性计算方式中:γ被定义为:此外,对于定量度量,γ的定义为定义dist(Av,Aw),如下所示:所述简化图卷积神经网络计算方式定义为:图注意力网络定义为:其中αij定义为:eij定义为:所述文本分类方法总体模型为:一种基于图卷积神经网络的文本分类系统,包括:信息输入模块,用于将外部数据库所获取的源文本进行便准化后导入;基于图卷积神经网络的文本分类模块,应用上述基于图卷积神经网络的文本分类方法,对输入源文本进行分类处理;信息输出模块,将所述基于图卷积神经网络的文本分类模块中生成的文本分类结果以新的数据库形式输出。本专利技术通过上述技术方案,我们提出了一种称为ASGCN的新型模型来对不同的文本进行分类。该模型中,我们将简化的图卷积网络和图注意力网络相结合以得到更好的分类结果。此外,我们还提出了一种构造图的新方法,以便它可以更好地适合所提出的模型并为我们提供更好的结果,因而,其能够实现如下效果:1、通过文本之间的相关关系对文本类别做出预判;2、构建一种新的基于图神经网络的模型以提高分类精度。具体实施方式以下是本专利技术的优选实施例,对本专利技术的技术方案作进一步的描述,但本专利技术并不限于此实施例。本实施例中一种基于图卷积神经网络的文本分类方法主要包括三个步骤:步骤一:输入文本,相似性图的构建;步骤二:深度学习模型的构建;步骤三:由相似性图和深度学习模型构成文本分类方法总体模型,输出分类结果。为了实现该方法,在部署和配置python运行环境。步骤一:输入文本,相似性图的构建;就像使用CNN处理像素邻域系统的情况一样,GCN网络会将每个节点的信息传递到其邻域,而不是分别处理每个特征。这就是为什么我们必须构建一个组织良好的图,以便能够更好地揭示文本之间的前后关系。同样,需要深度学习模型来进行分类。因此,选择能够解释节点之间相似性的措施非常重要。我们的方法基于N个文本的数据集。数据库中的每个文本都有一个包含基本特征的d维元组。邻接矩阵的构造将使用所有这些信息,结果将为G=(V,E)。V是节点集,每个节点代表一个文本。训练集和测试集中的所有节点都包括在内,V中元素的数量为N。E是图中的边集,两个节点之间的边的存在性由这两个节点之间的相似性决定。我们的目的是对图中的节点进行二进制分类。我们将每个文本视为图中的一个节点,称为ni。一个文本包含一个集合M,M中有个H型表型特征,即M={Mh}。图中节点之间的相似性定义如下:其中Sim(Av,Aw)表示节点v与节点w之间的相似性。这两个节点越相似,该值就越大。在该公式中,Mh(v)表示第v个文本的第h个特征。在处理分类信息时,γ被定义为:对于定量度量,γ的定义有些不同:θ是影响结果的阈值。最后,我们定义dist(Av,Aw),如下所示:在这个公式中,σ决定了内核的宽度,x(v)是第v个对象的特征向量。ρ表示相关距离。而两个节点之间的边的存在性是由相似度的值决定的。如果相似度大于λ,则在这些节点之间将生成一条边。我们的图便由这些边构成。该图的邻接矩阵表示为A。步骤二:深度学习模型的构建;我们的模型中使用了一种简化图卷积神经网络与一种图注意力神经网络。其中,简化图卷积神经网络的结构如下:其中表示卷积层的输出,Θ为训练的参数,X表示网络的输入矩阵,由每个文本的特征向量组成,即:X=[x1,...,xn]T。而S代表具有自环的归一化邻接矩阵,其表达式为其中是的度矩阵。这个公式可以被简化为:图注意力网络的结构如下:在这一层中,对于送入该层的每个矢量,将应用以下公式:其中,是经过卷积层处理后的第j个节点的特征向量,W为训练的参数。Ni这里是图中第i个节点的邻域,而αij定义为:其中,αij定义为:步骤三:由相似性图和深度学习模型构成文本分类方法总体模型,输出分类结果。综上所述,这一模型的总体公式可以写为:将上述模型对文本分类的结果进行对外输出即得到所需文本分类结果。本文档来自技高网...

【技术保护点】
1.一种基于图卷积神经网络的文本分类方法,其特征在于:包括:/n步骤一:输入文本,相似性图的构建。在一个含有多个文本的数据集中,每个文本都有一个包含基本特征关键词的多维元组。基于该文本数据集,构造邻接矩阵,将每个文本定义为一个节点,两个节点之间的边的存在性由这两个节点之间的相似性决定,如果相似度大于某一特定阈值,则在这些节点之间将生成一条边,以此对图中的节点类别进行预判并构建相似性图;/n步骤二:深度学习模型的构建,使用一种简化图卷积神经网络与一种图注意力神经网络,并结合Softmax函数实现;/n步骤三:由相似性图和深度学习模型构成文本分类方法总体模型,输出分类后的文本,其中所述文本分类方法总体模型通过使用所述简化图卷积神经网络和所述图注意力网络并结合Softmax函数计算实现。/n

【技术特征摘要】
1.一种基于图卷积神经网络的文本分类方法,其特征在于:包括:
步骤一:输入文本,相似性图的构建。在一个含有多个文本的数据集中,每个文本都有一个包含基本特征关键词的多维元组。基于该文本数据集,构造邻接矩阵,将每个文本定义为一个节点,两个节点之间的边的存在性由这两个节点之间的相似性决定,如果相似度大于某一特定阈值,则在这些节点之间将生成一条边,以此对图中的节点类别进行预判并构建相似性图;
步骤二:深度学习模型的构建,使用一种简化图卷积神经网络与一种图注意力神经网络,并结合Softmax函数实现;
步骤三:由相似性图和深度学习模型构成文本分类方法总体模型,输出分类后的文本,其中所述文本分类方法总体模型通过使用所述简化图卷积神经网络和所述图注意力网络并结合Softmax函数计算实现。


2.根据权利要求1所述的一种基于图卷积神经网络的文本分类方法,其特征在于:所述相似性图的构建步骤中,两个节点之间的相似性计算方式为:





3.根据权利要求2所述的一种基于图卷积神经网络的文本分类方法,其特征在于:所述两个节点之间的相似性计算方式中:
γ...

【专利技术属性】
技术研发人员:李建欣邵明来周佰聪孙佩源邰振赢
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1