一种基于图神经网络提取文章的过程体系的方法和装置制造方法及图纸

技术编号:25441158 阅读:16 留言:0更新日期:2020-08-28 22:28
本发明专利技术提供了一种基于图神经网络提取文章的过程体系的方法和装置,涉及人工智能技术领域,通过对第一文章的格式信息进行分析,识别出第一文章不同级别标题的层次结构;判断各个标题是否为描述第一过程的行为词,当第一级别标题为描述第一过程的行为词时,建立第一级别标题所在的下层标题中第一级别标题与第二级别标题的时间向量,以及建立第一级别标题的上层标题到下层标题的所属向量,进而以时间向量、所属向量建立第一标题网络图,并对大量第二文章的第二标题网络图进行图神经网络的无监督学习,获得第一过程体系与第一过程体系的步骤序列,达到图神经网络对文章标题层次结构迭代学习的结果准确性的最大化的技术效果。

【技术实现步骤摘要】
一种基于图神经网络提取文章的过程体系的方法和装置
本专利技术涉及人工智能
,尤其涉及一种基于图神经网络提取文章的过程体系的方法和装置。
技术介绍
机器智能的基础是计算机的认知体系,其包括两大类:一类是静态的概念体系,例如:依据属性特征的分类体系、依据物理连接的结构体系、以及依据逻辑关系的关系体系;另一类是动态的事件(过程)体系。在一个特定的时空发生的过程就是事件。因此,对过程体系的识别、提取是计算机获取机器智能不可或缺的一步,是计算机能够对历史事件做出判断、对未来事件做出预测的基础,也是当今对机器智能研究的一个重要方向。识别文章标题的布局和层次是业内成熟技术,因为人们常用的文本软件(比如:word、PDF、HTML等)都自带格式信息,人们往往还用标题编号、字体渲染、段落缩进和对仗等来突出标题和段落的层次。故此,计算机可以获得丰富的信息识别出文章标题的层次。识别出的文章标题层次本身就反映了过程和其步骤之间的关系。一个标题节点,对于它指向的上一层标题,它是步骤,对于它被指向的下一层标题,它是过程名称,所以,在构建标题网络图的所属向量(边)时,依据文章标题结构的层次信息就够了。在判断一个过程到底包含多少个步骤,先后次序是什么样的时候,一篇文章的标题结构提供的过程及其挂接的步骤信息往往不完全,在一篇文章中,即便两个步骤在相对时间上看上去“相邻”,实际上,其中间也可能会隐藏着其它步骤。用传统的数学统计需要对大量文章标题结构进行相似性聚合,对一个步骤序列元素的增减进行不可逆性和一致性校验等等。但本专利技术申请人发现现有技术至少存在如下技术问题:现有的数学统计只能针对出现过的步骤进行统计,没有推断未知步骤的能力,当不同文章反映出来的同一过程的步骤信息有冲突时,一致性校验会造成最终结果准确性的损失。
技术实现思路
本专利技术实施例提供了一种基于图神经网络提取文章的过程体系的方法和装置,解决了现有技术中数学统计只能针对出现过的步骤进行统计,没有推断未知步骤的能力,当不同文章反映出来的同一过程的步骤信息有冲突时,一致性校验会造成最终结果准确性的损失的技术问题,达到了基于图神经网络不断迭代学习,进而具备一定的挖掘隐藏步骤的能力,保证图神经网络迭代学习的结果准确性的最大化的技术效果。鉴于上述问题,提出了本申请实施例以便提供一种基于图神经网络提取文章的过程体系的方法和装置。第一方面,本专利技术提供了一种基于图神经网络提取文章的过程体系的方法,所述方法包括:获得第一文章的第一文章格式信息;根据所述第一文章格式信息识别所述第一文章的标题层次获得第一级别标题,其中,所述第一级别标题包含所述第一级别标题对应的第一段落;判断所述第一级别标题是否为描述第一过程的行为词;当所述第一级别标题为描述所述第一过程的行为词时,确定所述第一级别标题的上层标题以及所述第一级别标题所在的下层标题;获得在所述下层标题中描述所述第一过程的第二级别标题,其中,所述第二级别标题包含所述第二级别标题对应的第二段落;根据所述上层标题与所述下层标题建立所属向量,且根据时间识别所述第一段落与所述第二段落建立所述第一级别标题与所述第二级别标题的时间向量;根据所述第一级别标题、所述第二级别标题、所述上层标题与所述所属向量、所述时间向量建立第一标题网络图;获得多篇第二文章,且根据所述多篇第二文章对应建立多个第二标题网络图,其中,所述第二文章与所述第一文章的文章名称属于同义词;将所述第一标题网络图与所述多个第二标题网络图输入图神经网络进行深度学习,获得第一过程体系与第一过程体系的步骤序列。优选地,所述第一文章格式信息包含第一文章文本格式、第一文章字体格式、第一文章段落格式。优选地,所述根据所述上层标题与所述下层标题建立所属向量,包括:根据所述上层标题确定上层节点;根据所述第一级别标题、所述第二级别标题确定所述下层标题;根据所述下层标题确定下层节点;根据所述下层节点与所述上层节点获得所述下层节点指向所述上层节点的所述所属向量。优选地,根据时间识别所述第一段落与所述第二段落建立所述第一级别标题与所述第二级别标题的时间向量,包括:获得所述第一级别标题的第一级别标题节点;获得所述第二级别标题的第二级别标题节点;根据所述第一级别标题对应的所述第一段落获得第一时间量;根据所述第二级别标题对应的所述第二段落获得第二时间量;判断所述第一时间量与所述第二时间量的时间先后顺序;当所述第一时间量在所述第二时间量的时间之前时,判断所述第一级别标题节点与所述第二级别标题节点是否为相邻节点;当所述第一级别标题节点与所述第二级别标题节点为相邻节点时,获得从所述第一级别标题节点指向所述第二级别标题节点的所述时间向量。优选地,所述方法还包括:将所述第一标题网络图与所述第二标题网络图输入所述图神经网络进行训练,获得多个第一标题状态函数hv,其中,所述第一标题状态函数hv表示为hv=f(xv,xco[v],hne[v],xne[v]),其中,所述第一标题状态函数hv是节点v的向量化表示,判断所述节点v是否为描述第一过程;f(*)为局部转换函数,被所有节点共享,并根据输入的领域信息来更新节点的状态;Xv是所述节点v的特征表示;Xco[v]是与所述节点v相连的边,即所述所属向量和所述时间向量的特征表示;hne[v]是相邻节点的状态;Xne[v]是所述节点v相邻节点的特征表示;将所述多个第一标题状态函数hv进行集合,获得第一标题状态函数集合H,其中,所述第一标题状态函数集合H表示为H=F(H,X),其中,F(*)为局部转换函数集合;X为所述节点v的特征集合;对所述第一标题状态函数集合H沿时间迭代学习,获得迭代函数Ht+1,其中,所述迭代函数Ht+1表示为Ht+1=F(Ht,X),其中,Ht+1为第一标题状态函数集合的下一个t+1时的标题状态函数集合;Ht为时间t时的第一标题状态函数集合;当所述迭代函数Ht+1=Ht时,计算所述迭代函数Ht+1获得所述第一过程体系与所述第一过程体系的步骤序列。优选地,所述方法还包括:根据所述多个第一标题状态函数hv确定所述节点v为描述所述第一过程中的多个第一步骤Ov,其中,所述第一步骤Ov表示为Ov=g(hv,Xv),其中,g(*)为局部输出函数;将所述多个第一步骤Ov进行集合,获得所述第一过程体系的第一步骤合集O,其中,所述第一步骤合集O表示为O=G(H,X),其中,G(*)为局部输出函数集合。第二方面,本专利技术提供了一种基于图神经网络提取文章的过程体系的装置,所述装置包括:第一获得单元,所述第一获得单元用于获得第一文章的第一文章格式信息;第二获得单元,所述第二获得单元用于根据所述第一文章格式信息识别所述第一文章的标题层次获得第一级别标题,其中,所述第一级别标题包含所述第一级别标题对应的第一段落;第一判断单元,所述第一判断单元用于判断所述第一级别标题是否为描述第一过程的行为词;第一确定单元,所述第一确定单元用于当所述第一级别标题为描述所述第一过程本文档来自技高网
...

【技术保护点】
1.一种基于图神经网络提取文章的过程体系的方法,其特征在于,所述方法包括:/n获得第一文章的第一文章格式信息;/n根据所述第一文章格式信息识别所述第一文章的标题层次获得第一级别标题,其中,所述第一级别标题包含所述第一级别标题对应的第一段落;/n判断所述第一级别标题是否为描述第一过程的行为词;/n当所述第一级别标题为描述所述第一过程的行为词时,确定所述第一级别标题的上层标题以及所述第一级别标题所在的下层标题;/n获得在所述下层标题中描述所述第一过程的第二级别标题,其中,所述第二级别标题包含所述第二级别标题对应的第二段落;/n根据所述上层标题与所述下层标题建立所属向量,且根据时间识别所述第一段落与所述第二段落建立所述第一级别标题与所述第二级别标题的时间向量;/n根据所述第一级别标题、所述第二级别标题、所述上层标题与所述所属向量、所述时间向量建立第一标题网络图;/n获得多篇第二文章,且根据所述多篇第二文章对应建立多个第二标题网络图,其中,所述第二文章与所述第一文章的文章名称属于同义词;/n将所述第一标题网络图与所述多个第二标题网络图输入图神经网络进行深度学习,获得第一过程体系与第一过程体系的步骤序列。/n...

【技术特征摘要】
1.一种基于图神经网络提取文章的过程体系的方法,其特征在于,所述方法包括:
获得第一文章的第一文章格式信息;
根据所述第一文章格式信息识别所述第一文章的标题层次获得第一级别标题,其中,所述第一级别标题包含所述第一级别标题对应的第一段落;
判断所述第一级别标题是否为描述第一过程的行为词;
当所述第一级别标题为描述所述第一过程的行为词时,确定所述第一级别标题的上层标题以及所述第一级别标题所在的下层标题;
获得在所述下层标题中描述所述第一过程的第二级别标题,其中,所述第二级别标题包含所述第二级别标题对应的第二段落;
根据所述上层标题与所述下层标题建立所属向量,且根据时间识别所述第一段落与所述第二段落建立所述第一级别标题与所述第二级别标题的时间向量;
根据所述第一级别标题、所述第二级别标题、所述上层标题与所述所属向量、所述时间向量建立第一标题网络图;
获得多篇第二文章,且根据所述多篇第二文章对应建立多个第二标题网络图,其中,所述第二文章与所述第一文章的文章名称属于同义词;
将所述第一标题网络图与所述多个第二标题网络图输入图神经网络进行深度学习,获得第一过程体系与第一过程体系的步骤序列。


2.如权利要求1所述的方法,其特征在于,所述第一文章格式信息包含第一文章文本格式、第一文章字体格式、第一文章段落格式。


3.如权利要求1所述的方法,其特征在于,所述根据所述上层标题与所述下层标题建立所属向量,包括:
根据所述上层标题确定上层节点;
根据所述第一级别标题、所述第二级别标题确定所述下层标题;
根据所述下层标题确定下层节点;
根据所述下层节点与所述上层节点获得所述下层节点指向所述上层节点的所述所属向量。


4.如权利要求1所述的方法,其特征在于,根据时间识别所述第一段落与所述第二段落建立所述第一级别标题与所述第二级别标题的时间向量,包括:
获得所述第一级别标题的第一级别标题节点;
获得所述第二级别标题的第二级别标题节点;
根据所述第一级别标题对应的所述第一段落获得第一时间量;
根据所述第二级别标题对应的所述第二段落获得第二时间量;
判断所述第一时间量与所述第二时间量的时间先后顺序;
当所述第一时间量在所述第二时间量的时间之前时,判断所述第一级别标题节点与所述第二级别标题节点是否为相邻节点;
当所述第一级别标题节点与所述第二级别标题节点为相邻节点时,获得从所述第一级别标题节点指向所述第二级别标题节点的所述时间向量。


5.如权利要求1所述的方法,其特征在于,所述方法还包括:
将所述第一标题网络图与所述第二标题网络图输入所述图神经网络进行训练,获得多个第一标题状态函数hv,其中,所述第一标题状态函数hv表示为
hv=f(xv,xco[v],hne[v],xne[v]),
其中,所述第一标题状态函数hv是节点v的向量化表示,判断所述节点v是否为描述第一过程;f(*)为局部转换函数,被所有节点共享,并根据输入的领域信息来更新节点的状态;Xv是所述节点v的特征表示;Xco[v]是与所述节点v相连的边,即所述所属向量和所述时间向量的特征表示;hne[v]是相邻节点的状态...

【专利技术属性】
技术研发人员:宋永生王楠
申请(专利权)人:江苏联著实业股份有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1