【技术实现步骤摘要】
一种基于图神经网络提取文章的过程体系的方法和装置
本专利技术涉及人工智能
,尤其涉及一种基于图神经网络提取文章的过程体系的方法和装置。
技术介绍
机器智能的基础是计算机的认知体系,其包括两大类:一类是静态的概念体系,例如:依据属性特征的分类体系、依据物理连接的结构体系、以及依据逻辑关系的关系体系;另一类是动态的事件(过程)体系。在一个特定的时空发生的过程就是事件。因此,对过程体系的识别、提取是计算机获取机器智能不可或缺的一步,是计算机能够对历史事件做出判断、对未来事件做出预测的基础,也是当今对机器智能研究的一个重要方向。识别文章标题的布局和层次是业内成熟技术,因为人们常用的文本软件(比如:word、PDF、HTML等)都自带格式信息,人们往往还用标题编号、字体渲染、段落缩进和对仗等来突出标题和段落的层次。故此,计算机可以获得丰富的信息识别出文章标题的层次。识别出的文章标题层次本身就反映了过程和其步骤之间的关系。一个标题节点,对于它指向的上一层标题,它是步骤,对于它被指向的下一层标题,它是过程名称,所以,在构建标题网络图的所属向量(边)时,依据文章标题结构的层次信息就够了。在判断一个过程到底包含多少个步骤,先后次序是什么样的时候,一篇文章的标题结构提供的过程及其挂接的步骤信息往往不完全,在一篇文章中,即便两个步骤在相对时间上看上去“相邻”,实际上,其中间也可能会隐藏着其它步骤。用传统的数学统计需要对大量文章标题结构进行相似性聚合,对一个步骤序列元素的增减进行不可逆性和一致性校验等等。但本专利技术申 ...
【技术保护点】
1.一种基于图神经网络提取文章的过程体系的方法,其特征在于,所述方法包括:/n获得第一文章的第一文章格式信息;/n根据所述第一文章格式信息识别所述第一文章的标题层次获得第一级别标题,其中,所述第一级别标题包含所述第一级别标题对应的第一段落;/n判断所述第一级别标题是否为描述第一过程的行为词;/n当所述第一级别标题为描述所述第一过程的行为词时,确定所述第一级别标题的上层标题以及所述第一级别标题所在的下层标题;/n获得在所述下层标题中描述所述第一过程的第二级别标题,其中,所述第二级别标题包含所述第二级别标题对应的第二段落;/n根据所述上层标题与所述下层标题建立所属向量,且根据时间识别所述第一段落与所述第二段落建立所述第一级别标题与所述第二级别标题的时间向量;/n根据所述第一级别标题、所述第二级别标题、所述上层标题与所述所属向量、所述时间向量建立第一标题网络图;/n获得多篇第二文章,且根据所述多篇第二文章对应建立多个第二标题网络图,其中,所述第二文章与所述第一文章的文章名称属于同义词;/n将所述第一标题网络图与所述多个第二标题网络图输入图神经网络进行深度学习,获得第一过程体系与第一过程体系的 ...
【技术特征摘要】
1.一种基于图神经网络提取文章的过程体系的方法,其特征在于,所述方法包括:
获得第一文章的第一文章格式信息;
根据所述第一文章格式信息识别所述第一文章的标题层次获得第一级别标题,其中,所述第一级别标题包含所述第一级别标题对应的第一段落;
判断所述第一级别标题是否为描述第一过程的行为词;
当所述第一级别标题为描述所述第一过程的行为词时,确定所述第一级别标题的上层标题以及所述第一级别标题所在的下层标题;
获得在所述下层标题中描述所述第一过程的第二级别标题,其中,所述第二级别标题包含所述第二级别标题对应的第二段落;
根据所述上层标题与所述下层标题建立所属向量,且根据时间识别所述第一段落与所述第二段落建立所述第一级别标题与所述第二级别标题的时间向量;
根据所述第一级别标题、所述第二级别标题、所述上层标题与所述所属向量、所述时间向量建立第一标题网络图;
获得多篇第二文章,且根据所述多篇第二文章对应建立多个第二标题网络图,其中,所述第二文章与所述第一文章的文章名称属于同义词;
将所述第一标题网络图与所述多个第二标题网络图输入图神经网络进行深度学习,获得第一过程体系与第一过程体系的步骤序列。
2.如权利要求1所述的方法,其特征在于,所述第一文章格式信息包含第一文章文本格式、第一文章字体格式、第一文章段落格式。
3.如权利要求1所述的方法,其特征在于,所述根据所述上层标题与所述下层标题建立所属向量,包括:
根据所述上层标题确定上层节点;
根据所述第一级别标题、所述第二级别标题确定所述下层标题;
根据所述下层标题确定下层节点;
根据所述下层节点与所述上层节点获得所述下层节点指向所述上层节点的所述所属向量。
4.如权利要求1所述的方法,其特征在于,根据时间识别所述第一段落与所述第二段落建立所述第一级别标题与所述第二级别标题的时间向量,包括:
获得所述第一级别标题的第一级别标题节点;
获得所述第二级别标题的第二级别标题节点;
根据所述第一级别标题对应的所述第一段落获得第一时间量;
根据所述第二级别标题对应的所述第二段落获得第二时间量;
判断所述第一时间量与所述第二时间量的时间先后顺序;
当所述第一时间量在所述第二时间量的时间之前时,判断所述第一级别标题节点与所述第二级别标题节点是否为相邻节点;
当所述第一级别标题节点与所述第二级别标题节点为相邻节点时,获得从所述第一级别标题节点指向所述第二级别标题节点的所述时间向量。
5.如权利要求1所述的方法,其特征在于,所述方法还包括:
将所述第一标题网络图与所述第二标题网络图输入所述图神经网络进行训练,获得多个第一标题状态函数hv,其中,所述第一标题状态函数hv表示为
hv=f(xv,xco[v],hne[v],xne[v]),
其中,所述第一标题状态函数hv是节点v的向量化表示,判断所述节点v是否为描述第一过程;f(*)为局部转换函数,被所有节点共享,并根据输入的领域信息来更新节点的状态;Xv是所述节点v的特征表示;Xco[v]是与所述节点v相连的边,即所述所属向量和所述时间向量的特征表示;hne[v]是相邻节点的状态...
【专利技术属性】
技术研发人员:宋永生,王楠,
申请(专利权)人:江苏联著实业股份有限公司,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。