事件抽取方法、装置、系统和存储介质制造方法及图纸

技术编号:17007484 阅读:22 留言:0更新日期:2018-01-11 03:50
本发明专利技术公开了一种事件抽取方法、装置、系统和存储介质。该方法包括:利用对语料库进行模式学习得到的触发词,定位语料库的文档中的事件句,并根据触发词的关系分类确定事件句的事件类别;使用模式学习得到的模式,模式匹配事件句,得到与模式相匹配的事件句集;根据预设的与事件类别对应的事件学习模板,抽取事件句集中的事件内容。根据本发明专利技术实施例提供的事件抽取方法,可以提高事件内容抽取的效率和完整性。

【技术实现步骤摘要】
事件抽取方法、装置、系统和存储介质
本专利技术涉及信息抽取领域,尤其涉及事件抽取方法、装置、系统和存储介质。
技术介绍
作为信息抽取的重要组成部分,事件抽取具有广阔的应用前景和巨大的现实意义,并且在自动文摘、自动问答、情报研究和信息检索等领域有着广泛的应用。事件抽取的主要目的是把包含事件的非结构化文本以结构化的形式呈现出来。事件抽取通常可以分为元事件(MetaEvent)抽取和主题事件(TopicEvent)抽取。其中,元事件表示一个动作的发生或者状态的变化,包括参与该动作的一系列成分例如时间、地点、主体和客体等。元事件是主题事件的基本组成单位。事件抽取是信息处理领域的关键技术,目前事件抽取的主要方法包括基于模式匹配的元事件抽取。基于模式匹配方法对事件的识别和抽取是在一些模式的指导下完成的,抽取时需要通过模式匹配算法找出符合模式约束条件的信息即可。但是,基于模式匹配方法需要大量的人工建立模式,模式的创建者需要较高的技能水平。随着互联网技术的发展,WEB文本不断丰富,面对大规模语料,人工建立模式的数量较大,使用模式匹配的方法显得费时费力,且人工建立的模式往往比较片面且不够准确,从而可能导致抽取的事件内容不够完整和准确。
技术实现思路
本专利技术实施例提供事件抽取方法、装置、系统和存储介质,可以提高事件内容抽取的效率和完整性。根据本专利技术实施例的一方面,提供一种事件抽取方法,包括:利用对语料库进行模式学习得到的触发词,定位语料库的文档中的事件句,并根据触发词的关系分类确定事件句的事件类别;使用模式学习得到的模式,模式匹配事件句,得到与模式相匹配的事件句集;根据预设的与事件类别对应的事件学习模板,抽取事件句集中的事件内容。根据本专利技术实施例的另一方面,提供一种事件抽取装置,包括:事件句定位及分类模块,用于利用对语料库进行模式学习得到的触发词,定位语料库的文档中的事件句,并根据触发词的关系分类确定事件句的事件类别;事件句匹配模块,用于使用模式学习得到的模式,模式匹配事件句,得到与模式相匹配的事件句集;事件内容抽取模块,用于根据预设的与事件类别对应的事件学习模板,抽取事件句集中的事件内容。根据本专利技术实施例的再一方面,提供一种事件抽取系统,包括:存储器,用于储存可执行程序代码;处理器,用于读取存储器中存储的可执行程序代码以执行上述的事件抽取方法。根据本专利技术实施例的又一方面,提供一种计算机可读存储介质,该计算机可读存储介质包括指令,当该指令在计算机上运行时,使得计算机执行上述各方面所述的方法。根据本专利技术实施例的事件抽取方法、装置、系统和存储介质,利用模式学习得到的触发词定位所述语料库的文档中的事件句并对定位到的事件分类;并利用学习得到的模式,对定位到的事件句进行模式匹配,根据每种事件类别对应的事件学习模板学习事件内容。根据本专利技术实施例的事件抽取方法,在学习到新模式之后使用模式和模板学习结合的方式从文本中抽取相关的内容,提高了事件识别的效率,有利于提高事件识别的完整性和准确性。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对本专利技术实施例中所需要使用的附图作简单地介绍,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是示出根据本专利技术一实施例的事件抽取方法的流程图;图2示出图1中利用对语料库进行模式学习得到触发词之前的流程图;图3是示出图2中通过远程监督的关系抽取方法得到语料库中的模式候选句的具体流程图;图4是示出图2中根据触发词与实体对之间的位置关系从模式候选句中抽取候选模式的具体流程图;图5是示出图2中根据位于实体位置之前位置词汇的词性进行候选模式合并以获取新的模式的具体流程图;图6是示出根据本专利技术实施例的另一实施例的事件抽取方法的流程图;图7是示出根据本专利技术一实施例的事件抽取装置的结构示意图;图8是示出根据本专利技术另一实施例的事件抽取装置的结构示意图;图9是图8中模式候选句获取模块的具体结构示意图;图10是图8中候选模式抽取模块的具体结构示意图;图11是图8中候选模式合并模块的具体结构示意图;图12示出了根据本专利技术再一实施例的事件抽取装置的结构示意图;图13是示出了能够实现根据本专利技术实施例的事件抽取方法和装置的计算设备的示例性硬件架构的结构图。具体实施方式下面将详细描述本专利技术的各个方面的特征和示例性实施例,为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细描述。应理解,此处所描述的具体实施例仅被配置为解释本专利技术,并不被配置为限定本专利技术。对于本领域技术人员来说,本专利技术可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本专利技术的示例来提供对本专利技术更好的理解。需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。在本专利技术实施例中,事件抽取(EventExtraction)的任务可以被定义为事件的检测与识别(Eventdetectionandrecognition,VDR),即识别特定类型的事件,并进行相关信息的确定和抽取,主要的相关信息包括:事件的类型和子类型、事件的元素等。本专利技术实施例可以采用自动从语料库中学习新的模式,并在学习到新模式之后使用模式和模板学习结合的方式进行事件抽取,在进行模式学习和事件抽取的过程中,会涉及大量的实体词、触发词、已有和训练中扩增的模式、事件句集等相关数据,为了更好的保存和使用上述相关数据,可以通过对应的表或集合的形式对上述相关数据进行管理。在一些实施例中,定义关系表R={r1,r2,…,rx},关系表中的每一项可以表示一个由人工定义的关系relationi,作为一个具体的示例,关系可以是合作、竞争或收购等。在一些实施例中,定义触发词表Triggers,该触发词表Triggers={(t1,r1),(t2,r2),…,(tk,rk)},其中,ti是一个触发词,ri∈R,表示触发词所属的关系,i=1,2,…,k。初始化的触发词表Trigger,可以由人工添加触发词及其对应关系。在一些实施例中,定义模式描述词表conjunctions,可以用于保存模式中使用的模式描述词。在一些实施例中,可以定义模式库Patterns={p1,p2,…,pn},可以表示多个模式的集合,对于模式库中的一个模式,可以表示为Patternpi=(entity1,entity2,relationi,conjunctionsi),其中,模式pi包含实体entity1、实体entity2、关系relationi和模式描述词conjunctionsi,关系relation∈关系表R,模式描述词表conjunctions由固定的词或者短语本文档来自技高网...
事件抽取方法、装置、系统和存储介质

【技术保护点】
一种事件抽取方法,其特征在于,所述事件抽取方法包括:利用对语料库进行模式学习得到的触发词,定位所述语料库的文档中的事件句,并根据所述触发词的关系分类确定所述事件句的事件类别;使用所述模式学习得到的模式,模式匹配所述事件句,得到与所述模式相匹配的事件句集;根据预设的与所述事件类别对应的事件学习模板,抽取所述事件句集中的事件内容。

【技术特征摘要】
1.一种事件抽取方法,其特征在于,所述事件抽取方法包括:利用对语料库进行模式学习得到的触发词,定位所述语料库的文档中的事件句,并根据所述触发词的关系分类确定所述事件句的事件类别;使用所述模式学习得到的模式,模式匹配所述事件句,得到与所述模式相匹配的事件句集;根据预设的与所述事件类别对应的事件学习模板,抽取所述事件句集中的事件内容。2.根据权利要求1所述的事件抽取方法,其特征在于,在所述利用对语料库进行模式学习得到的触发词之前,还包括:分别计算所述语料库中的词汇与预设的触发词表中每个触发词的触发词相似度,所述触发词相似度的最大值大于触发词相似度阈值时,设置所述词汇与所述最大值对应的触发词具有相同的关系分类,并将所述词汇作为所述模式学习得到的触发词;使用预设的种子模式抽取所述语料库中的候选句,并获取所述候选句中的实体对;利用所述候选句中的实体对,通过远程监督的关系抽取方法得到所述语料库中的模式候选句;根据所述模式候选句中包含的触发词与所述模式候选句中包含的实体对之间的位置关系,从所述模式候选句中抽取候选模式;通过抽取的候选模式和所述候选模式的抽取次数,根据预设的评分方法对所述候选模式打分,并获取分数大于模式评分阈值的候选模式;根据所述分数大于模式评分阈值的候选模式中的,且位于所述实体对中每个实体的位置之前位置的词汇的词性,合并所述分数大于模式评分阈值的候选模式,并将合并后的候选模式作为所述模式学习得到的模式。3.根据权利要求2所述的时间抽取方法,其特征在于,所述利用所述候选句中的实体对,通过远程监督的关系抽取方法得到所述语料库中的模式候选句,包括:对预设的语料库中的文档进行实体识别,得到所述文档中的实体;根据所述实体对中的实体搜索所述语料库的文档中的句子;所述句子中包含所述实体对,并且所述句子中实体以外的词汇包含所述触发词表中的触发词时,根据所述句子、所述句子中包含的所述实体对和所述句子中包含的所述触发词,得到所述语料库中的模式候选句。4.根据权利要求2所述的事件抽取方法,其特征在于,所述根据所述模式候选句中包含的触发词与所述模式候选句中包含的实体对之间的位置关系,从所述模式候选句中抽取候选模式,包括:获取所述模式候选句中包含的触发词在所述模式候选句中的位置作为触发词位置,将所述模式候选句中包含的实体对中的实体分别作为第一实体和第二实体,并获取所述模式候选句中所述第一实体的位置作为第一实体位置,获取所述模式候选句中所述第二实体的位置作为第二实体位置,所述第二实体位置位于所述第一实体位置之后;所述触发词位置位于所述第一实体位置之前,获取位于所述触发词位置到所述第二实体位置的内容作为所述抽取的候选模式,并将位于所述触发词位置与所述第一实体位置之间的词汇以及位于所述第一实体位置与所述第二实体位置之间的词汇作为模式描述词;所述触发词位置位于所述第一实体位置和所述第二实体位置之间,获取位于所述第一实体位置到所述第二实体位置的内容作为所述抽取的候选模式,并将位于所述第一实体位置与所述触发词位置之间的词汇以及位于所述触发词位置与所述第二实体位置之间的词汇作为所述模式描述词;所述触发词位置位于第二实体位置之后,获取位于所述第一实体位置到所述触发词位置的内容作为所述抽取的候选模式,并将位于所述第一实体位置与所述第二实体位置之间的词汇以及位于所述第二实体位置与所述触发词位置之间的词汇作为所述模式描述词。5.根据权利要求2所述的事件抽取方法,其特征在于,所述根据所述分数大于模式评分阈值的候选模式中的,且位于所述实体对中每个实体的位置之前位置的词汇的词性,合并所述分数大于模式评分阈值的候选模式,并将合并后的候选模式作为所述学习得到的模式,包括:获取所述抽取的候选模式包含的实体对中的实体分别作为第一实体和第二实体,所述第二实体的位置位于所述第一实体的位置之后;将位于所述第一实体的前一个位置起向前位置的连续的名词作为第一名词,将所述第一名词与所述第一实体合并,并将与所述第一实体合并后的候选模式作为新抽取的候选模式;将位于所述第二实体的前一个位置起向前位置的,且除所述第一实体以外的连续的名词作为第二名词,将所述第二名词与所述第二实体合并,并将与所述第二实体合并后的候选模式作为新抽取的候选模式;将所述新抽取的候选模式作为所述模式学习得到的模式。6.根据权利要求2所述的事件抽取方法,其特征在于,所述事件抽取方法还包括:抽取所述学习得到的模式中的事实,并添加抽取的事实到预设的事实库。7.根据权利要求1所述的事件抽取方法,其特征在于,所述事件抽取方法还包括:抽取的所述事件内容中包含相同事件,将包含所述相同事件的所述事件内容进行聚合;获取所述事件内容对应的所述语料库的预设文档源置信度,以及所述事件内容中包含的所述相同事件被抽取的次数;根据所述预设文档源置信度和所述相同事件被抽取的次数,计算所述聚合后的事件内容的置信度。8.一种事件抽取装置,其特征在于,所述事件抽取装置包括:事件句定位及分类模块,用于利用对语料库进行模式学习得到的触发词,定位所述语料库的文档中的事件句,并根据所述触发词的关系分类确定所述事件句的事件类别;事件句匹配模块,用于使用所述模式学习得到的模式,模式匹配所...

【专利技术属性】
技术研发人员:吴刚
申请(专利权)人:南京柯基数据科技有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1