【技术实现步骤摘要】
事件抽取方法、装置、系统和存储介质
本专利技术涉及信息抽取领域,尤其涉及事件抽取方法、装置、系统和存储介质。
技术介绍
作为信息抽取的重要组成部分,事件抽取具有广阔的应用前景和巨大的现实意义,并且在自动文摘、自动问答、情报研究和信息检索等领域有着广泛的应用。事件抽取的主要目的是把包含事件的非结构化文本以结构化的形式呈现出来。事件抽取通常可以分为元事件(MetaEvent)抽取和主题事件(TopicEvent)抽取。其中,元事件表示一个动作的发生或者状态的变化,包括参与该动作的一系列成分例如时间、地点、主体和客体等。元事件是主题事件的基本组成单位。事件抽取是信息处理领域的关键技术,目前事件抽取的主要方法包括基于模式匹配的元事件抽取。基于模式匹配方法对事件的识别和抽取是在一些模式的指导下完成的,抽取时需要通过模式匹配算法找出符合模式约束条件的信息即可。但是,基于模式匹配方法需要大量的人工建立模式,模式的创建者需要较高的技能水平。随着互联网技术的发展,WEB文本不断丰富,面对大规模语料,人工建立模式的数量较大,使用模式匹配的方法显得费时费力,且人工建立的模式往往比较片面且不够准确,从而可能导致抽取的事件内容不够完整和准确。
技术实现思路
本专利技术实施例提供事件抽取方法、装置、系统和存储介质,可以提高事件内容抽取的效率和完整性。根据本专利技术实施例的一方面,提供一种事件抽取方法,包括:利用对语料库进行模式学习得到的触发词,定位语料库的文档中的事件句,并根据触发词的关系分类确定事件句的事件类别;使用模式学习得到的模式,模式匹配事件句,得到与模式相匹配的事件句集;根据预 ...
【技术保护点】
一种事件抽取方法,其特征在于,所述事件抽取方法包括:利用对语料库进行模式学习得到的触发词,定位所述语料库的文档中的事件句,并根据所述触发词的关系分类确定所述事件句的事件类别;使用所述模式学习得到的模式,模式匹配所述事件句,得到与所述模式相匹配的事件句集;根据预设的与所述事件类别对应的事件学习模板,抽取所述事件句集中的事件内容。
【技术特征摘要】
1.一种事件抽取方法,其特征在于,所述事件抽取方法包括:利用对语料库进行模式学习得到的触发词,定位所述语料库的文档中的事件句,并根据所述触发词的关系分类确定所述事件句的事件类别;使用所述模式学习得到的模式,模式匹配所述事件句,得到与所述模式相匹配的事件句集;根据预设的与所述事件类别对应的事件学习模板,抽取所述事件句集中的事件内容。2.根据权利要求1所述的事件抽取方法,其特征在于,在所述利用对语料库进行模式学习得到的触发词之前,还包括:分别计算所述语料库中的词汇与预设的触发词表中每个触发词的触发词相似度,所述触发词相似度的最大值大于触发词相似度阈值时,设置所述词汇与所述最大值对应的触发词具有相同的关系分类,并将所述词汇作为所述模式学习得到的触发词;使用预设的种子模式抽取所述语料库中的候选句,并获取所述候选句中的实体对;利用所述候选句中的实体对,通过远程监督的关系抽取方法得到所述语料库中的模式候选句;根据所述模式候选句中包含的触发词与所述模式候选句中包含的实体对之间的位置关系,从所述模式候选句中抽取候选模式;通过抽取的候选模式和所述候选模式的抽取次数,根据预设的评分方法对所述候选模式打分,并获取分数大于模式评分阈值的候选模式;根据所述分数大于模式评分阈值的候选模式中的,且位于所述实体对中每个实体的位置之前位置的词汇的词性,合并所述分数大于模式评分阈值的候选模式,并将合并后的候选模式作为所述模式学习得到的模式。3.根据权利要求2所述的时间抽取方法,其特征在于,所述利用所述候选句中的实体对,通过远程监督的关系抽取方法得到所述语料库中的模式候选句,包括:对预设的语料库中的文档进行实体识别,得到所述文档中的实体;根据所述实体对中的实体搜索所述语料库的文档中的句子;所述句子中包含所述实体对,并且所述句子中实体以外的词汇包含所述触发词表中的触发词时,根据所述句子、所述句子中包含的所述实体对和所述句子中包含的所述触发词,得到所述语料库中的模式候选句。4.根据权利要求2所述的事件抽取方法,其特征在于,所述根据所述模式候选句中包含的触发词与所述模式候选句中包含的实体对之间的位置关系,从所述模式候选句中抽取候选模式,包括:获取所述模式候选句中包含的触发词在所述模式候选句中的位置作为触发词位置,将所述模式候选句中包含的实体对中的实体分别作为第一实体和第二实体,并获取所述模式候选句中所述第一实体的位置作为第一实体位置,获取所述模式候选句中所述第二实体的位置作为第二实体位置,所述第二实体位置位于所述第一实体位置之后;所述触发词位置位于所述第一实体位置之前,获取位于所述触发词位置到所述第二实体位置的内容作为所述抽取的候选模式,并将位于所述触发词位置与所述第一实体位置之间的词汇以及位于所述第一实体位置与所述第二实体位置之间的词汇作为模式描述词;所述触发词位置位于所述第一实体位置和所述第二实体位置之间,获取位于所述第一实体位置到所述第二实体位置的内容作为所述抽取的候选模式,并将位于所述第一实体位置与所述触发词位置之间的词汇以及位于所述触发词位置与所述第二实体位置之间的词汇作为所述模式描述词;所述触发词位置位于第二实体位置之后,获取位于所述第一实体位置到所述触发词位置的内容作为所述抽取的候选模式,并将位于所述第一实体位置与所述第二实体位置之间的词汇以及位于所述第二实体位置与所述触发词位置之间的词汇作为所述模式描述词。5.根据权利要求2所述的事件抽取方法,其特征在于,所述根据所述分数大于模式评分阈值的候选模式中的,且位于所述实体对中每个实体的位置之前位置的词汇的词性,合并所述分数大于模式评分阈值的候选模式,并将合并后的候选模式作为所述学习得到的模式,包括:获取所述抽取的候选模式包含的实体对中的实体分别作为第一实体和第二实体,所述第二实体的位置位于所述第一实体的位置之后;将位于所述第一实体的前一个位置起向前位置的连续的名词作为第一名词,将所述第一名词与所述第一实体合并,并将与所述第一实体合并后的候选模式作为新抽取的候选模式;将位于所述第二实体的前一个位置起向前位置的,且除所述第一实体以外的连续的名词作为第二名词,将所述第二名词与所述第二实体合并,并将与所述第二实体合并后的候选模式作为新抽取的候选模式;将所述新抽取的候选模式作为所述模式学习得到的模式。6.根据权利要求2所述的事件抽取方法,其特征在于,所述事件抽取方法还包括:抽取所述学习得到的模式中的事实,并添加抽取的事实到预设的事实库。7.根据权利要求1所述的事件抽取方法,其特征在于,所述事件抽取方法还包括:抽取的所述事件内容中包含相同事件,将包含所述相同事件的所述事件内容进行聚合;获取所述事件内容对应的所述语料库的预设文档源置信度,以及所述事件内容中包含的所述相同事件被抽取的次数;根据所述预设文档源置信度和所述相同事件被抽取的次数,计算所述聚合后的事件内容的置信度。8.一种事件抽取装置,其特征在于,所述事件抽取装置包括:事件句定位及分类模块,用于利用对语料库进行模式学习得到的触发词,定位所述语料库的文档中的事件句,并根据所述触发词的关系分类确定所述事件句的事件类别;事件句匹配模块,用于使用所述模式学习得到的模式,模式匹配所...
【专利技术属性】
技术研发人员:吴刚,
申请(专利权)人:南京柯基数据科技有限公司,
类型:发明
国别省市:江苏,32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。