一种基于深度图神经网络的文本分类方法及系统技术方案

技术编号：37844601 阅读：14 留言：0更新日期：2023-06-14 22:27

本发明专利技术提出一种基于深度图神经网络的文本分类方法及系统，属于自然语言处理中的文本分类技术领域，其中方法包括：利用Bert对词节点初始向量进行初始化；利用语料库统计的词频

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度图神经网络的文本分类方法及系统

[0001]本专利技术属于自然语言处理中的文本分类
，特别涉及一种基于深度图神经网络的文本分类方法及系统。

技术介绍

[0002]在自然语言的
，文本分类在现实生活中得到了广泛的应用，由于传统的文本分类研究主要集中在特征工程和分类算法上，因此基于深度学习的文本分类模型越来越受欢迎，包括单词嵌入模型和深度神经网络如CNN和RNN等。随着图神经网络的发展，一些基于图的分类模型逐渐出现，这些模型能够借助图神经网络捕获文本句子中的结构化信息，进而文档中的词共现信息更好地进行分类。
[0003]在实际应用的过程中，尽管现有的基于图网络的模型在几个文本分类数据集上取得了优异的表现，但是这些方法的图神经网络非常的浅，无法获取节点的长距离依赖，使得模型在长文本上的分类准确率不如短文本。

技术实现思路

[0004]专利技术目的：提出一种基于深度图神经网络的文本分类方法及系统，以解决现有技术存在的上述问题。利用Bert的预训练语言模型获取初始向量、利用DropEdge和自适应残差训练深度图网络，捕获文本中的结构化信息和长距离依赖，更准确地进行文本分类。
[0005]技术方案：第一方面，提出了一种基于深度图神经网络的文本分类方法，该方法包括以下步骤：
[0006]步骤1、读取语料库中的文档；
[0007]步骤2、利用微调后的Bert模型对步骤1中的文档节点向量执行初始化，得到文档节点的向量X
D
；
[0008]

【技术保护点】

【技术特征摘要】
1.一种基于深度图神经网络的文本分类方法，其特征在于，包括以下步骤：步骤1、读取语料库中的文档；步骤2、利用Bert模型对步骤1中的文档节点向量执行初始化；步骤3、利用word2vec模型对步骤1中的文档词向量执行初始化；步骤4、通过词频
‑
逆文本频率指数和节点互信息获得边权重，构建一个包含词节点和文档节点的异构图；步骤5、基于DropEdge网络和自适应残差结构，构建深度图卷积神经网络；步骤6、利用步骤4中获得的异构图对步骤5中构建的深度图卷积神经网络，执行性能训练；步骤7、利用步骤6中训练完成的深度图卷积神经网络对待分析的文本进行分析；步骤8、分析过程中，根据文档节点的输出向量，得到每个文档对应的类别。2.根据权利要求1所述的一种基于深度图神经网络的文本分类方法，其特征在于，所述步骤2执行文档节点向量初始化时，包括以下步骤：步骤2.1、针对文本分类需求，采用语料库对Bert模型执行微调，得到训练好的Bert模型；步骤2.2、采用微调后的Bert模型对文档节点向量进行初始化，得到文档节点的向量。3.根据权利要求1所述的一种基于深度图神经网络的文本分类方法，其特征在于，所述步骤4构建异构图的过程中，包括以下步骤：步骤4.1、利用词频
‑
逆文本频率指数获得词节点与文档节点的边权重；步骤4.2、利用正节点互信息获得词与词节点的边权重；步骤4.3、基于步骤4.1和步骤4.2中的边权重，构建一个包含词节点V
W
和文档节点V
D
的异构图G＝(V,E)。4.根据权利要求3所述的一种基于深度图神经网络的文本分类方法，其特征在于，所述正节点互信息的计算表达式为：式中，x,y表示图中任意两个节点，这里指任意两个词，P(x,y)表示词x,y在文档中同时出现的频率，P(x)和P(y)分别表示词x、y在文档中单独出现的频率。5.根据权利要求1所述的一种基于深度图神经网络的文本...

【专利技术属性】
技术研发人员：赵天理，陈嘉源，
申请(专利权)人：中科南京人工智能创新研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人