海量数据集事件关系抽取方法技术

技术编号:22387464 阅读:37 留言:0更新日期:2019-10-29 06:32
本发明专利技术公开了一种海量数据集事件关系抽取方法,包括:S1:三元组之间按照关联规则建立关联关系和关联强度,组成无向网;S2:连接三元组中的前项词向量、后项词向量和实体类型,作为无向网中节点的特征;S3:对无向网中每个节点进行分类处理,抽取事件中的实体关系。解决了大数据集或海量数据集中事件关系的抽取精度和速度问题,由于使用了卷积网路,可以进行并行运算,由此解决了抽取速度问题;同时由于是在图数据结构上使用了卷积网络提取特征,因此利用卷积网路提取特征强的优势,解决了传统方法由于提取特征弱造成的精度低的缺陷。

Extraction method of event relationship in massive data set

【技术实现步骤摘要】
海量数据集事件关系抽取方法
本专利技术涉及事件关系抽取领域,尤其涉及海量数据集事件关系抽取方法。
技术介绍
目前在知识图谱系统的开发中,对于事件关系的抽取,主流算法都是基于远程监督的算法,该种算法对小数据量的数据集比较实用,一旦数据集中的实体数量达到千万级别以上,就面临计算缓慢,事件关系抽取精度不高,需要海量人工标注的训练样本等缺点。传统的远程监督训练的算法在大数据集和海量数据集上很难达到60%,传统方式所需人工标注的样本数量基本要到10万级别甚至更高。
技术实现思路
为了解决上述问题,本专利技术提出一种海量数据集事件关系抽取方法,包括以下步骤:S1:三元组之间按照关联规则建立关联关系和关联强度,组成无向网;S2:连接三元组中的前项词向量、后项词向量和实体类型,作为无向网中节点的特征;S3:对无向网中每个节点进行分类处理,抽取事件中的实体关系。优选的,以FP-树频集算法为基础建立关联规则。优选的,无向网的组成过程包括以下步骤:S11:将事件描述成包括主语、谓语和宾语的三元组,所述三元组作为一个节点;S12:节点和节点之间进行连接,连接线上标记关联关系与关联强度。优选的,所述步骤S2包括:本文档来自技高网...

【技术保护点】
1.海量数据集事件关系抽取方法,其特征在于,包括以下步骤:S1:三元组之间按照关联规则建立关联关系和关联强度,组成无向网;S2:连接三元组中的前项词向量、后项词向量和实体类型,作为无向网中节点的特征;S3:对无向网中每个节点进行分类处理,抽取事件中的实体关系。

【技术特征摘要】
1.海量数据集事件关系抽取方法,其特征在于,包括以下步骤:S1:三元组之间按照关联规则建立关联关系和关联强度,组成无向网;S2:连接三元组中的前项词向量、后项词向量和实体类型,作为无向网中节点的特征;S3:对无向网中每个节点进行分类处理,抽取事件中的实体关系。2.根据权利要求1所述的海量数据集事件关系抽取方法,其特征在于,以FP-树频集算法为基础建立关联规则。3.根据权利要求1所述的海量数据集事件关系抽取方法,其特征在于,无向网的组成过程包括以下步骤:S11:将事件描述成包括主语、谓语和宾语的三元组,所述三元组作为一个节点;S12:节点和节点之间进行连接,连接线上标记关联关系与关联强度。4.根据权利要求1所述的海量数据集事件关系抽取方法,其特征在于,所述步骤S2包括:S21:分别抽取三元组中的前项和后项,合并成前项词向量和后项词向量;S22:抽取三元组中的实体类型;...

【专利技术属性】
技术研发人员:陈泽勇张治同张莉姚松
申请(专利权)人:成都迪普曼林信息技术有限公司
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1