【技术实现步骤摘要】
一种基于改进的图注意力网络新闻主题分类方法
[0001]本专利技术涉及数据分类
,尤其涉及一种基于改进的图注意力网络新闻主题分类方法
。
技术介绍
[0002]新闻主题分类是根据一段新闻文本中的描述,来判定它是属于哪个类别
。
此任务在各大新闻发布网站中有诸多的应用,比如新华网中把新闻分成时政
、
国际
、
财经
、
科技
、
文化
、
健康
、
军事等
。
因此,如何把相关文本数据进行快速准确的分类显得尤为重要
。
[0003]采用图卷积网络
(GCN)
进行新闻主题分类的技术
。GCN
是一种基于图的神经网络,可用于处理图数据
。
在新闻主题分类任务中,可以将文本视为节点,并以词汇相似度或句子相似度等作为边进行图构建
。
然后,通过在图的节点上使用
GCN
进行信息聚合和分类
。 ...
【技术保护点】
【技术特征摘要】
1.
一种基于改进的图注意力网络新闻主题分类方法,其特征在于包括:获取原始新闻数据文本,采用基于
Transformer
的预训练语言模型将单词转换为高维度的语义向量;将预训练语言模型生成的词向量连接到双向长短期记忆网络中,通过双向长短期记忆网络提取文本的特征向量;以双向长短期记忆网络输出的文章向量作为节点,使用余弦相似值构建无向图,构建时将每个文章向量视为一个节点,并根据文章向量之间的余弦相似性构建图的边;采用全局注意力机制的图注意力网络对无向图的节点进行信息聚合,将全局信息聚合到每个节点上,使每个节点都获得来自其他节点的信息,从而得到每个节点的新的特征向量;采用改进的图注意力网络对新闻文本进行分类
。2.
根据权利要求1所述的一种基于改进的图注意力网络新闻主题分类方法,其特征在于:所述对图的节点信息进行聚合时:对于每个节点
i
,采用特征向量表示节点的原始特征;通过计算节点特征之间的相似度,得到注意力权重,表示节点
i
与其他节点之间的注意力大小;对于每个节点
i
,根据注意力权重将其他节点的特征进行加权平均得到节点
i
的聚合特征向量;将聚合得到的节点特征向量作为节点
i
的新特征向量,用于后续的分类任务
。3.
根据权利要求1所述的一种基于改进的图注意力网络新闻主题分类方法,其特征在于:所述构建无向图时:将每个文章的特征向量看作一个节点,总共有
n
个节点,其中
n
为输入样本的数量;计算每对文章向量之间的余弦相似度,其中弦相似度用于衡量两个向量之间的夹角,从而表示它们的相似性;对于每对文章
(i,j)
,计算它们之间的余弦相似度即公式
(1)
所示,其中,
v
i
和
v
j
分别表示第
i
篇和第
j
篇文章的向量表示,
||v
i
||
和
||v
j
||
分别表示它们的欧几里得长度通过计算所有文章向量之间的余弦相似度,构建无向图
。4.
根据权利要求1所述的一种基于改进的图注意力网络新闻主题分类方法,其特征在于:采用全局注意力机...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。