基于词语逆频率加权的图残差网络文本分类方法技术

技术编号:24683942 阅读:67 留言:0更新日期:2020-06-27 08:06
本发明专利技术公开了一种基于词语逆频率加权的图残差网络文本分类方法,包括如下步骤:1)整理文本数据;2)预处理;3)分集;4)构建文本关系图;5)搭建深度图残差卷积神经网络;6)迭代训练;7)分类结果。这种方法能够充分考虑文本信息,可提高文本分类精度,鲁棒性强。

A text classification method of graph residual network based on word inverse frequency weighting

【技术实现步骤摘要】
基于词语逆频率加权的图残差网络文本分类方法
本专利技术涉及自然语音处理技术,具体是一种基于词语逆频率加权的图残差网络文本分类方法。
技术介绍
随着互联网的不断发展,我们的日常交流生活也在不断发生变化,电子邮件,微博,微信等新型交流平台的出现,更是使网络数据呈现出爆发式的增长,其中包括了文本数据,图像数据,语音数据,视频数据等多种多样的数据形式。而在各种数据中,文本数据因其特性所占比例最大,数量最多,因此如何处理和利用海量文本数据则显得尤为重要。文本分类是目前自然语言处理领域的一项重要的技术,近年有很多文本分类方法出现:包括传统机器学习方法和深度学习方法如词袋模型,RNN文本分类和TextCNN等。CNN作为最常用的深度学习神经网络,TextCNN成功地将卷积神经网络引入文本分类方法,卷积神经网络通过视野域提取文本中较为重要的特征进行文本分类,实验结果表明相对传统机器学习方法,卷积神经网络用于文本分类能够得到较高的精确度,但它没有考虑到单词与单词之间组合造成的影响,所以我们提出了新的构建文本信息关系方法,同时考虑单词与单词,单词与文档的关系,而文本文档来自技高网...

【技术保护点】
1.基于词语逆频率加权的图残差网络文本分类方法,其特征在于,包括如下步骤:/n1)整理文本数据:从github上收集文本数据作为训练集和测试集的数据,对训练集和测试集中的文本数据进行整理,即分别将训练集和测试集中文本数据的标签和特征按顺序排列,其中文本数据的训练集和测试集在收集时已分类;/n2)预处理:对整理后的训练集和测试集中的所有文本数据进行预处理,即删除文本数据中出现次数极低的单词、常用单词和标点符号,其中单词的最低出现次数人为设定; 3)分集:将步骤2)中预处理后的训练集中的文本数据打乱顺序,然后按9比1的比例分成训练样本集、验证样本集; 4)构建文本关系图:将步骤2)中预处理后的所有...

【技术特征摘要】
1.基于词语逆频率加权的图残差网络文本分类方法,其特征在于,包括如下步骤:
1)整理文本数据:从github上收集文本数据作为训练集和测试集的数据,对训练集和测试集中的文本数据进行整理,即分别将训练集和测试集中文本数据的标签和特征按顺序排列,其中文本数据的训练集和测试集在收集时已分类;
2)预处理:对整理后的训练集和测试集中的所有文本数据进行预处理,即删除文本数据中出现次数极低的单词、常用单词和标点符号,其中单词的最低出现次数人为设定;3)分集:将步骤2)中预处理后的训练集中的文本数据打乱顺序,然后按9比1的比例分成训练样本集、验证样本集;4)构建文本关系图:将步骤2)中预处理后的所有文本数据应用tf-iwf算法计算文本数据中词频和文档之间的关系,用PMI算法计算文本数据中词与词的关系,从而构建出文本数据中单词与文档的关系矩阵作为图卷积神经网络的文本关系图;5)搭建深度图残差卷积神经网络:将步骤4)中的文本关系图传输到图卷积神经网络中,并将残差网络的原理引入图卷积神经网络,构建残差模块,通过在图卷积神经网络中叠加残差模块,得到深度图残差卷积神经网络;6)迭代训练:对深度图残差卷积网络进行迭代训练,深度图残差卷积网络每遍历步骤3)中训练样本集的文本数据一次,就计算一次深度图残差卷积网络的损失函数...

【专利技术属性】
技术研发人员:陈博琰陆广泉张师超宋嘉港李泽鑫黄天城
申请(专利权)人:广西师范大学
类型:发明
国别省市:广西;45

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1