【技术实现步骤摘要】
一种文本分类方法、系统、计算机设备和存储介质
本专利技术涉及文本分类
,特别是涉及一种基于高低阶图卷积网络的文本分类方法、系统、计算机设备和存储介质。
技术介绍
随着互联网技术的迅猛发展,各类社交平台、技术交流平台和购物平台等都得到了快速发展,海量的文本数据信息也就不断产生,并因为其存在着超高价值的数据信息而成为大数据挖掘研究所热衷对象,文本分类在信息处理中地位也就越来越重要。研究者们都希望采用有效的文本分类方法对文本数据中的有用信息进行高效的管理、提取、分析为企业或社会发展提供有力的支撑。目前,文本分类的技术已从早期的依赖语言学专家的先验知识的人工分类发展到深度机器学习,如以卷积神经网络(CNN)和循环神经网络(RNN)为代表的深度学习模型被广泛应用于文本分类任务,但这些模型可能会忽略在语料库中的全局单词共现信息,而这些信息携带中非连续的和长距离的语义信息对文件分类结果有着重要的影响。虽然现有的图卷积神经网络能处理任何结构的数据和捕捉全局单词共现信息,可以有效学习具有丰富关系的文本图网络以及在图嵌入时保护图的 ...
【技术保护点】
1.一种文本分类方法,其特征在于,所述方法包括以下步骤:/n建立高低阶图卷积神经网络模型;所述高低阶图卷积神经网络模型依次包括输入层、高低阶图卷积层、信息融合层、一阶图卷积层、以及输出层;/n获取采用所述高低阶图卷积神经网络模型进行文本分类的语料集;所述语料集包括多个样本,每个样本包含文档和标题;/n对所述语料集进行预处理,得到训练集和测试集;/n根据所述训练集和测试集分别构建训练集文本图网络和测试集文本图网络;/n将所述训练集文本图网络输入到高低阶图卷积神经网络模型,结合损失函数进行训练,得到文本分类模型;/n将所述测试集文本图网络输入到所述文本分类模型中进行测试,得到分类结果。/n
【技术特征摘要】
1.一种文本分类方法,其特征在于,所述方法包括以下步骤:
建立高低阶图卷积神经网络模型;所述高低阶图卷积神经网络模型依次包括输入层、高低阶图卷积层、信息融合层、一阶图卷积层、以及输出层;
获取采用所述高低阶图卷积神经网络模型进行文本分类的语料集;所述语料集包括多个样本,每个样本包含文档和标题;
对所述语料集进行预处理,得到训练集和测试集;
根据所述训练集和测试集分别构建训练集文本图网络和测试集文本图网络;
将所述训练集文本图网络输入到高低阶图卷积神经网络模型,结合损失函数进行训练,得到文本分类模型;
将所述测试集文本图网络输入到所述文本分类模型中进行测试,得到分类结果。
2.如权利要求1所述的文本分类方法,其特征在于,所述高低阶图卷积神经网络模型的输出为Z,则:
其中X是图的输入矩阵,w1和w2分别是输入层到隐藏层之间的参数矩阵和隐藏层到输出层之间的参数矩阵,是图的含自连接的正则化邻接矩阵,k是图卷积的最高阶数,ReLU(·)为非线性激活函数,NMPooling(·)为信息融合层,softmax(·)为多分类输出函数。
3.如权利要求2所述的文本分类方法,其特征在于,所述高低阶图卷积层包括基于权重共享的一阶图卷积到k阶图卷积;所述高低阶图卷积层的阶数k为二阶及其以上阶数中的一种、或者任意复数种阶数的组合。
4.如权利要求2所述的文本分类方法,其特征在于,所述信息融合层采用最小值取反的信息融合池化,其实现步骤包括:
根据所述输入矩阵X、参数矩阵w1和正则化邻接矩阵计算不同阶图卷积的最小值矩阵;
对所述最小值矩阵的每个元素值取反,得到池化后的图特征矩阵。
5.如权利要求1所述的文本分类方法,其特征在于,所述对所述语料集进行预处理,得到训练集和测试集的步骤包括:
对所述语料集中各样本的标题和文档进行去重、分词,以及去除停止词和特殊符号的预处理,得到语料集单词,并将所述语料集单词和文档组成语料文本组;
将所述语料文本组按数量比例划分为训练集和测试集。
6.如权利要求1所述的文本分类方法,其特...
【专利技术属性】
技术研发人员:刘勋,宗建华,夏国清,叶和忠,刘强,
申请(专利权)人:广州大学华软软件学院,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。