当前位置: 首页 > 专利查询>南昌大学专利>正文

一种基于深度图神经网络的关键词抽取方法技术

技术编号:25637858 阅读:15 留言:0更新日期:2020-09-15 21:30
本发明专利技术属于计算机文档检索领域,具体设计一种基于深度图神经网络的关键词抽取方法,包括对文档进行矩阵加权形成有向图,利用图卷积编码器和图卷积解码器从相邻词汇中组合出最合适的关键词;期间为了保证数据的稳定,还可进行正则化的方式,保证数据的稳定性;因此,本方案是在图神经网络的端到端关键词抽取方法的基础上进行改进的,大大提高关键词抽取的效率。

【技术实现步骤摘要】
一种基于深度图神经网络的关键词抽取方法
本专利技术属于计算机文档检索领域,具体涉及一种基于深度图神经网络的关键词抽取方法。
技术介绍
文章的关键词通常是几个词或者短语,作为对该文档主要内容的提要。关键词的运用使得人们能够快速了解文档内容,把握文章主题。现今,关键抽取技术广泛应用于信息检索、信息管理等领域。传统的关键词提取方法都是无监督的方法。无监督方法通常先用某些启发式方法识别候选关键词,再根据重要度得分对候选关键词排序。沿着该方向,最先进的算法是基于图的排序方法。然而,这类方法是完全无监督的,它们严重依赖手动设计的特征,当应用于不同类型的文档时,它们可能无法正常工作。目前已存在许多网页关键词提取方法,这些方法的着眼点大多为词语的出现频率、词语在全文所处的区域、词语本身的语义特征。采用的方法大致有以下几类:基于统计学的方法,机器学习的方法,自然语言处理的方法。但这些方法都存在着不足,其中对关键词提取,对正文的候选关键词进行评价,并经过排序后,提取前N个词作为网页的关键词,但这N个关键词中,并非所有的词都是真正与正文主题相关的关键词,而没被提取出的候选关键词中,却仍然存在一些与正文主题很相关的词,使得关键词提取的准确率和召回率都不高。已有的关键词抽取方法在选取候选关键词时,通常会考虑机器学习得到的特征,然而这些特征只能通过对文档中词语的出现频率进行统计发现各个词语的重要性,并不能够揭示隐藏在文档内容中的完全语义。最近,将端到端神经网络的用于提取关键关键词的方法吸引起了广泛的关注,神经网络方法通常在编码器-解码器框架中研究关键词提取,该框架首先将输入文档编码为矢量表示形式,然后使用基于条件的循环神经网络(RNN)解码器生成关键词。这些神经方法在端到端有监督的训练下,在多个基准数据集上取得了最优的性能。但是,与无监督的基于图的排序方法相比,现有的端到端方法仅将文档视为词序列,并没有从图形结构的全局信息中获益。基于图的无监督排名的关键词抽取方法在估计词的显著性上显示出良好的性能,这启发我们开发基于深度图神经网络的编码器。与基于序列的编码器(例如RNN和CNN)相比,基于深度图神经网络的编码器具有多个优点。例如,基于图神经网络的编码器可以显著表情词之间的短期与长期依赖性,以及体现出相同单词多次出现的文档综合视图。
技术实现思路
为解决上述问题,本专利技术提供了一种基于深度图神经网络的关键词抽取方法。本专利技术的基础方案为:一种基于深度图神经网络的关键词抽取方法,包括以下步骤:假设文档中两个词的距离越接近,他们之间的关联性越强;S1,构建待关键词提取的文档所对应的有向图,包括以下步骤:S1-1,定义图与图分别对应邻接矩阵和词wi∈W到词wj∈W的边权重为其中P(wi)表示词wi的位置pi的集合;S2,构造关键词集合对应的有向图将关键词集合表示为图计对应的临接矩阵计算方法如下。给定源文档的节点集合W={w1,w2,…,wn},关键词集合K={k1,k2,...,km}S3,利用图卷积编码器进行编码,包括两个步骤;S3-1,每个节点聚合来自其邻居节点的信息;S3-2,根据节点当前的表示和从邻居节点汇集的信息更新每个节点的表示,给定第l层的节点表示矩阵Hl,每一层的图卷积神经网络计算如下,其中,和Wl均为可学习的参数矩阵,σ为sigmoid函数,为逐点乘法,gl为与fl定义相仿的函数;S4,利用图卷积解码器进行解码:给定一个有L层图卷积网络编码器的输出HL,解码器抽取的关键词邻接矩阵计算如下,其中Wd为解码器的参数矩阵。基础方案的有益效果为:本方案解决了编码器解码框架关键词抽取方法的不足,对此,本方案依赖于词基本的相邻信息,并自动学习这些信息,是一种新型的图到图关键词抽取方法。本方案中,将文档设置成一个总图,将预设的所有可能关键词均设置为单元图,通过编码进行图神经卷积处理,保证节点特征时刻更新,并且随着图卷积神经处理层数的增加,参与计算的节点特征信息增多,整个计算所覆盖的域越广;而后解码器对编码器输出的节点特诊计算抽取关键词集合邻接矩阵,通过损失函数的计算保证关键词的多样性。筛选出关联较大的几个子图,经过解码后获得对应的关键词。相比现有技术而言,本方案没有采用循环神经网络,计算过程较为简单,相比基于循环神经网络的关键词抽取算法快6-10倍。并且抽取的关键词能有效覆盖文档的大部分主题,提高了关键词抽取的效果。进一步,S1还包括,对邻接矩阵进行正则化:其中为单位矩阵。为的度矩阵。进一步,还包括S5,计算损失函数:其中其中yi为真实值,为预测值,||yi||为L1范数,α为控制的超参数。本方案中,正则化项||yi||旨在提高模型抽取关键词的多样性通过计算真实值与预测值,得到损失函数,从而知晓本次方案的误差情况,以最小化损失函数Loss的值为目标,有利于后续方案验证和改进,选择出最佳方案。进一步,S3中图卷积编码器由3层图卷积神经网络组成。附图说明图1为本专利技术一种基于深度图神经网络的关键词抽取方法实施例的运行示意图;图2为图1的文档信息示意图。具体实施方式下面通过具体实施方式进一步详细的说明:实施例基本如附图1和附图2所示:给定源文档的节点集合W={w1,w2,...,wn},待关键词集合K={k1,k2,...,km};一种基于深度图神经网络的关键词抽取方法,包括以下步骤:S1,整理源文档,构建与源文档形状一致的邻接矩阵,定义与图分别对应邻接矩阵为和词wi∈W到词wj∈W的边权重为其中P(wi)表示词wi的位置pi的集合,边权重表现出两个节点之间关联度;S2,待关键词提取的文档所对应的的有向图:待关键词集合表示为图计对应的临接矩阵S3,利用图卷积编码器进行编码,包括两个步骤;S3-1,每个节点将自身的提针信息经过变换后发送给邻居节点,对节点的信息特征进行抽取变换;因此,每个节点均会将邻居节点的特征信息聚集起来,实现对节点的局部结构信息进行融合;将每个节点所聚集起来的信息作非线性变换,增加模型的表达能力后;S3-2,根据节点当前的表示和从邻居节点汇集的信息更新每个节点的表示,给定第l层的节点表示矩阵Hl,每一层的图卷积神经网络计算如下,其中,和Wl均为可学习的参数矩阵,σ为sigmoid函数,为逐点乘法,gl为与fl定义相仿的函数;由于每个节点包含了直接邻居的信息,在计算第二层图卷积神经网络时就能把邻居的邻居的信息包含起来,这样经过多次卷积神经网络编码,参与运算的信息旧更多更充分;也就是说,图卷积神经编码层数越多,感受域(由参与计算的信息所集合而成的范围)就越广;S4,利用图卷积本文档来自技高网
...

【技术保护点】
1.一种基于深度图神经网络的关键词抽取方法,其特征在于,包括以下步骤:假设文档中两个词的距离越接近,他们之间的关联性越强;/nS1,构建与文档图形状一致的邻接矩阵,定义

【技术特征摘要】
1.一种基于深度图神经网络的关键词抽取方法,其特征在于,包括以下步骤:假设文档中两个词的距离越接近,他们之间的关联性越强;
S1,构建与文档图形状一致的邻接矩阵,定义与图分别对应邻接矩阵为和词wi∈W到词wj∈W的边权重为






其中P(wi)表示词wi的位置pi的集合;
S2,待关键词提取的文档所对应的有向图:将关键词集合表示为图计对应的临接矩阵计算方法如下:
给定源文档的节点集合W={w1,w2,…,wn},关键词集合K={k1,k2,...,km}



S3,利用图卷积编码器进行编码,包括两个步骤;
S3-1,每个节点对应源文档的一个矩阵,每个节点均聚合来自其邻居节点的信息;
S3-2,根据节点当前的表示和从邻居节点汇集的信息更新每个节点的表示,给定第l层的节点表示矩阵H_l,每一层的图卷积神经网络计算如...

【专利技术属性】
技术研发人员:段文影
申请(专利权)人:南昌大学
类型:发明
国别省市:江西;36

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1