一种文本分类方法、系统、计算机设备和存储介质技术方案

技术编号:27744359 阅读:31 留言:0更新日期:2021-03-19 13:38
本发明专利技术提供了一种文本分类方法、系统、计算机设备和存储介质,所述方法包括建立一种包括同时捕捉节点多阶邻域信息的高低阶图卷积层、混合不同邻域的一阶到高阶特征的信息融合层、一阶图卷积层及softmax分类输出层的新的高低阶图卷积神经网络模型,输入训练集文本图网络训练得到文本分类模型后,将测试集文本图网络输入分类模型得到分类结果。本发明专利技术实施例在文本分类时,保证了文本分类效率和分类效果的同时,还通过同时捕捉节点多阶邻域信息的方法解决了现有图卷积应用于文本分类时的计算复杂、参数量大、过平滑和限制感受野等问题,进一步提高文本分类模型的表达能力、模型的稳定性,及文本分类任务的精度。

【技术实现步骤摘要】
一种文本分类方法、系统、计算机设备和存储介质
本专利技术涉及文本分类
,特别是涉及一种基于高低阶图卷积网络的文本分类方法、系统、计算机设备和存储介质。
技术介绍
随着互联网技术的迅猛发展,各类社交平台、技术交流平台和购物平台等都得到了快速发展,海量的文本数据信息也就不断产生,并因为其存在着超高价值的数据信息而成为大数据挖掘研究所热衷对象,文本分类在信息处理中地位也就越来越重要。研究者们都希望采用有效的文本分类方法对文本数据中的有用信息进行高效的管理、提取、分析为企业或社会发展提供有力的支撑。目前,文本分类的技术已从早期的依赖语言学专家的先验知识的人工分类发展到深度机器学习,如以卷积神经网络(CNN)和循环神经网络(RNN)为代表的深度学习模型被广泛应用于文本分类任务,但这些模型可能会忽略在语料库中的全局单词共现信息,而这些信息携带中非连续的和长距离的语义信息对文件分类结果有着重要的影响。虽然现有的图卷积神经网络能处理任何结构的数据和捕捉全局单词共现信息,可以有效学习具有丰富关系的文本图网络以及在图嵌入时保护图的全局结构信息,但是现本文档来自技高网...

【技术保护点】
1.一种文本分类方法,其特征在于,所述方法包括以下步骤:/n建立高低阶图卷积神经网络模型;所述高低阶图卷积神经网络模型依次包括输入层、高低阶图卷积层、信息融合层、一阶图卷积层、以及输出层;/n获取采用所述高低阶图卷积神经网络模型进行文本分类的语料集;所述语料集包括多个样本,每个样本包含文档和标题;/n对所述语料集进行预处理,得到训练集和测试集;/n根据所述训练集和测试集分别构建训练集文本图网络和测试集文本图网络;/n将所述训练集文本图网络输入到高低阶图卷积神经网络模型,结合损失函数进行训练,得到文本分类模型;/n将所述测试集文本图网络输入到所述文本分类模型中进行测试,得到分类结果。/n

【技术特征摘要】
1.一种文本分类方法,其特征在于,所述方法包括以下步骤:
建立高低阶图卷积神经网络模型;所述高低阶图卷积神经网络模型依次包括输入层、高低阶图卷积层、信息融合层、一阶图卷积层、以及输出层;
获取采用所述高低阶图卷积神经网络模型进行文本分类的语料集;所述语料集包括多个样本,每个样本包含文档和标题;
对所述语料集进行预处理,得到训练集和测试集;
根据所述训练集和测试集分别构建训练集文本图网络和测试集文本图网络;
将所述训练集文本图网络输入到高低阶图卷积神经网络模型,结合损失函数进行训练,得到文本分类模型;
将所述测试集文本图网络输入到所述文本分类模型中进行测试,得到分类结果。


2.如权利要求1所述的文本分类方法,其特征在于,所述高低阶图卷积神经网络模型的输出为Z,则:



其中X是图的输入矩阵,w1和w2分别是输入层到隐藏层之间的参数矩阵和隐藏层到输出层之间的参数矩阵,是图的含自连接的正则化邻接矩阵,k是图卷积的最高阶数,ReLU(·)为非线性激活函数,NMPooling(·)为信息融合层,softmax(·)为多分类输出函数。


3.如权利要求2所述的文本分类方法,其特征在于,所述高低阶图卷积层包括基于权重共享的一阶图卷积到k阶图卷积;所述高低阶图卷积层的阶数k为二阶及其以上阶数中的一种、或者任意复数种阶数的组合。


4.如权利要求2所述的文本分类方法,其特征在于,所述信息融合层采用最小值取反的信息融合池化,其实现步骤包括:
根据所述输入矩阵X、参数矩阵w1和正则化邻接矩阵计算不同阶图卷积的最小值矩阵;
对所述最小值矩阵的每个元素值取反,得到池化后的图特征矩阵。


5.如权利要求1所述的文本分类方法,其特征在于,所述对所述语料集进行预处理,得到训练集和测试集的步骤包括:
对所述语料集中各样本的标题和文档进行去重、分词,以及去除停止词和特殊符号的预处理,得到语料集单词,并将所述语料集单词和文档组成语料文本组;
将所述语料文本组按数量比例划分为训练集和测试集。


6.如权利要求1所述的文本分类方法,其特...

【专利技术属性】
技术研发人员:刘勋宗建华夏国清叶和忠刘强
申请(专利权)人:广州大学华软软件学院
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1