当前位置: 首页 > 专利查询>暨南大学专利>正文

一种基于图注意力网络的中文短文本分类方法技术

技术编号:27529895 阅读:14 留言:0更新日期:2021-03-03 11:05
本发明专利技术公开了一种基于图注意力网络的中文短文本分类方法,包括以下步骤:对文本数据进行预处理,得到文本对应的词列表集合;文本特征提取:对本文对应的词列表集合,采用特征嵌入工具进行词嵌入处理,得到对应的词向量;采用图结构进行建图,将文本和文本中的词作为图节点,建立异构图;建立图注意力网络文本分类模型;采用网络开源的带类别标注的中文短文本数据集作为训练语科数据集,采用异构图训练图注意力网络文本分类模型;输出文本所属类别:将节点特征通过softmax分类层得到最终分类的类别;本发明专利技术在短文本信息量不足的条件下能够较充分的提取文本特征,并重点关注到对文本分类存在较大价值的信息,有效地提高了分类的准确率。的准确率。的准确率。

【技术实现步骤摘要】
一种基于图注意力网络的中文短文本分类方法


[0001]本专利技术涉及计算机自然语言处理的研究领域,特别涉及一种基于图注意力网络的中文短文本分类方法。

技术介绍

[0002]近年来,计算机技术、互联网及其附属产业飞速发展,网络上每天都会产生难以计数的以文本为主的数据,呈现大数据特征,如何对海量杂乱文本进行快速分类及分析是亟待解决的难题。文本分类是自然语言处理任务中的一项重要工作,对文本资源进行整理和归类,同时其也是解决文本信息过载问题的关键环节,在数字化图书馆、信息检索等领域应用广泛。运用正确的文本分类技术,从大量文本数据中提取出蕴含的有效语义信息,进而挖掘分析出作者的真实情感及所表达的内容特征,具有极大的运用价值,对提高文本的分类甄别和筛选等工作的效率有着重要意义。精准地进行文本分类已成为当前工业界和学术界的迫切要求,使得文本分类成为自然语言处理领域的一个热点研究方向。
[0003]现有技术中,没有重点关注到对分类存在较大价值的特征而导致分类存在较多的冗余特征的问题,当今中文短文本分类方法存在局限性
[0004]作为文本分类的一项重要工作,中文短文本分类主要对较短的中文文本进行自动分类,由于如今人们越来越习惯于在网络上对自己感兴趣的事物发表包含个人观点的评论和信息,中文短文本经常出现在社交平台和电商网站等网络平台中,一般不超过500字,例如微博内容,用户商品评论等。对于这些蕴含个人情感和观点的文本进行分类对于舆情监控、电商营销、情感分析等方面都具有重要意义。

技术实现思路

[0005]本专利技术的主要目的在于克服现有技术的缺点与不足,提供一种基于图注意力网络的中文短文本分类方法,本专利技术对中文短文本的分类采用建图的方法解决了短文本信息量不足的问题,并采用图注意力机制解决了现有分类方法中没有重点关注到对分类存在较大价值的特征而导致分类存在较多的冗余特征的问题,从而克服了当今中文短文本分类方法的局限性。
[0006]本专利技术的目的通过以下的技术方案实现:
[0007]一种基于图注意力网络的中文短文本分类方法,其特征在于,包括以下步骤:
[0008]获取文本数据,对文本数据进行预处理,得到文本对应的词列表集合;所述预处理包括噪声信息去除、分词处理和停用词处理;
[0009]文本特征提取;对本文对应的词列表集合,采用特征嵌入工具进行词嵌入处理,得到对应的词向量;
[0010]采用图结构进行建图,将文本和文本中的词作为图节点,建立异构图;
[0011]建立图注意力网络文本分类模型;采用网络开源的带类别标注的中文短文本数据集作为训练语科数据集,采用异构图训练图注意力网络文本分类模型;
[0012]输出文本所属类别;待分类的文本数据经过图注意力网络文本分类模型后,得到节点特征,将节点特征通过softmax分类层得到最终的中文短文本分类的类别。
[0013]进一步地,所述对文本数据进行预处理,具体如下:
[0014]噪声信息去除:通过正则表达式对中文短文本数据进行预处理,将噪声信息过滤;
[0015]分词处理:对噪声信息去除后的中文短文本数据,采用分词工具进行分词,将文本序列转换为分词后对应的词列表集合;
[0016]停用词处理:对分词后对应的词列表集合,采用停用词表进行停用词处理,得到预处理后的词列表集合。
[0017]进一步地,所述文本特征提取采用word2vc词特征嵌入工具训练得到文本对应词列表的初始词嵌入向量,然后在每个词向量中加上表示词位置的位置向量得到融合了词位置信息的词嵌入向量。
[0018]进一步地,所述采用图结构进行建图,将文本和文本中的词作为图节点,建立异构图,具体如下:
[0019]将文本和词均作为节点,采用确定边权的方式连边建立异构图,如下所示:
[0020][0021]其中,TF-IDF
i,j
,词节点ci与文本节点tj之间,用于确定词节点与文本节点之间的边权;PMI
i,j
,词节点ci与词节点cj之间,用于衡量词节点和词节点之间的边权;Cosine Similarity
i,j
,文本节点ti和文本节点tj之间,用于衡量文本节点和文本节点之间的边权;
[0022]进一步地,所述计算具体为:
[0023]其中,对于某词与文本的TF-IDF值计算如下:
[0024]词频t为该词在文本中出现的次数,X为文本的总词数,逆文档频率为文本总数,为包含该词的文本数,TF-IDF=TF
×
IDF,即词频乘以逆文档频率;
[0025]点互信息计算如下:
[0026][0027][0028][0029]其中,N(i,j)为同时包含词节点ci和词节点cj的滑动窗口数,N(i)为包含词节点i的滑动窗口数,N为滑动窗口总数;
[0030]余弦相似度Cosine Similarity,对于文本矩阵A和文件矩阵B的余弦相似度计算如下:
[0031][0032]其中,n为整个语料中词的数量,A和B分别表示两文本中各词出现次数的维向量,|A|和|B|分别表示两向量的模,A
i
表示文本A中词i出现的次数,B
i
表示文本B中词i出现的次数;
[0033]进一步地,所述建立图注意力网络文本分类模型,具体为:
[0034]输入图注意力网络N个图节点的特征矩阵,h={h1,h2,...,h
N
},其中,h
i
∈R
F
, F为每个节点的特征数;
[0035]进入两层的图注意力网络中,对节点训练权值矩阵W∈R
F
′×
F
,用于衡量输入特征与输出特征之间的关系;
[0036]每层图注意力层采用多头图注意力机制,节点之间的注意力互相关系数其中P是一个单层前馈神经网络,由权值向量γ∈R
2F

确定,采用 LeakyRelu激活函数进行非线性激活,采用softmax函数对所有节点的相邻节点进行正则化,即:
[0037][0038]则有,每层的注意力机制为:
[0039][0040]其中,T表示进行矩阵转置,||表示进行拼接操作;
[0041]在输出层采用多头注意力机制得到节点的输出特征,计算如下:
[0042][0043]其中,K表示注意力机制的头数,N
i
表示词节点i的邻接节点集合,表示第m头注意力机制中词i与词j的注意力值,W
m
表示第m头注意力机制的权重矩阵,h
j
表示词节点j的特征向量。
[0044]进一步地,所述采用网络开源的带类别标注的中文短文本数据集作为训练语科数据集,采用异构图训练图注意力网络文本分类模型,具体为:对建立的图注意力网络文本分类模型,采用网络开源的带类别标准的中文短文本语料数据集按照设定的比例划分为训练集、验证集和测试集;采用本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于图注意力网络的中文短文本分类方法,其特征在于,包括以下步骤:获取文本数据,对文本数据进行预处理,得到文本对应的词列表集合;所述预处理包括噪声信息去除、分词处理和停用词处理;文本特征提取;对本文对应的词列表集合,采用特征嵌入工具进行词嵌入处理,得到对应的词向量;采用图结构进行建图,将文本和文本中的词作为图节点,建立异构图;建立图注意力网络文本分类模型;采用网络开源的带类别标注的中文短文本数据集作为训练语科数据集,采用异构图训练图注意力网络文本分类模型;输出文本所属类别;待分类的文本数据经过图注意力网络文本分类模型后,得到节点特征,将节点特征通过softmax分类层得到最终的中文短文本分类的类别。2.根据权利要求1所述的一种基于图注意力网络的中文短文本分类方法,其特征在于,所述对文本数据进行预处理,具体如下:噪声信息去除:通过正则表达式对中文短文本数据进行预处理,将噪声信息过滤;分词处理:对噪声信息去除后的中文短文本数据,采用分词工具进行分词,将文本序列转换为分词后对应的词列表集合;停用词处理:对分词后对应的词列表集合,采用停用词表进行停用词处理,得到预处理后的词列表集合。3.根据权利要求1所述的一种基于图注意力网络的中文短文本分类方法,其特征在于,所述文本特征提取采用word2vc词特征嵌入工具训练得到文本对应词列表的初始词嵌入向量,然后在每个词向量中加上表示词位置的位置向量得到融合了词位置信息的词嵌入向量。4.根据权利要求1所述的一种基于图注意力网络的中文短文本分类方法,其特征在于,所述采用图结构进行建图,将文本和文本中的词作为图节点,建立异构图,具体如下:将文本和词均作为节点,采用确定边权的方式连边建立异构图,如下所示:其中,TF-IDF
i,j
,词节点ci与文本节点tj之间,用于确定词节点与文本节点之间的边权;PMI
i,j
,词节点ci与词节点cj之间,用于衡量词节点和词节点之间的边权;Cosine Similarity
i,j
,文本节点ti和文本节点tj之间,用于衡量文本节点和文本节点之间的边权。5.根据权利要求4所述的一种基于图注意力网络的中文短文本分类方法,其特征在于,所述计算具体为:其中,对于某词与文本的TF-IDF值计算如下:词频t为该词在文本中出现的次数,X为文本的总词数,逆文档频率为文本总数,为包含该词的文本数,TF-IDF=TF
×
IDF,即词频乘以逆文档频率;
点互...

【专利技术属性】
技术研发人员:黄斐然贝元琛
申请(专利权)人:暨南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1