当前位置: 首页 > 专利查询>苏州大学专利>正文

一种外延事件关系识别方法及系统技术方案

技术编号:10398338 阅读:133 留言:0更新日期:2014-09-07 19:26
本申请公开了一种外延事件关系的识别方法及系统,方法包括:计算第一目标外延事件与语料库中的各个子句的相似度值,并选择相似度值满足阈值且最大的子句为基准子句,以其为标准抽取上下文第一预设个数的子句确定为候选相关事件,计算候选相关事件与第一目标外延事件的相关度值,并将相关度值大于第一预设值的候选相关事件确定为相关事件,计算相关事件与第二目标外延事件的相似度值,并计算该相似度值与该相关事件利用第一目标外延事件计算得到的相关度值的乘积结果,将最大的乘积结果确定为第一目标外延事件与第二目标外延事件的关联度,确定两个目标外延事件的关系。

【技术实现步骤摘要】
【专利摘要】本申请公开了一种外延事件关系的识别方法及系统,方法包括:计算第一目标外延事件与语料库中的各个子句的相似度值,并选择相似度值满足阈值且最大的子句为基准子句,以其为标准抽取上下文第一预设个数的子句确定为候选相关事件,计算候选相关事件与第一目标外延事件的相关度值,并将相关度值大于第一预设值的候选相关事件确定为相关事件,计算相关事件与第二目标外延事件的相似度值,并计算该相似度值与该相关事件利用第一目标外延事件计算得到的相关度值的乘积结果,将最大的乘积结果确定为第一目标外延事件与第二目标外延事件的关联度,确定两个目标外延事件的关系。【专利说明】一种外延事件关系识别方法及系统
本申请涉及自然语言处理
,更具体地说,涉及一种外延事件关系识别方法及系统。
技术介绍
事件作为一种重要的信息表述类型,是指特定的人、物在特定地点相互作用的一种客观事实。事件的发生往往不是孤立现象,其发生和发展往往与外在的其它事件有着很强的逻辑关系,比如:事件“袭击”往往与“死亡”、“摧毁”和“伤害”事件共现在同一语言环境中。因此,形成一种自动识别事件关系的自然语言分析和信息处理机制,对面向大规模信息流汇总的离散时间,实现话题的推演和预测,有着重要的辅助作用。同一话题下的事件由种子事件以及其它相关的外延事件组成。如事件“恐怖分子劫持飞机撞毁世贸大厦”是话题“9/11恐怖袭击”的种子事件,而“袭击嫌疑犯调查”是话题“9/11恐怖袭击”的外延事件。为了更加细粒度的识别事件之间关联与否,将事件关系识别分为三个层次,第一、种子事件间的关系识别,第二、种子事件与外延事件间的关系识别,第三、外延事件间的关系识别。种子事件间的关系识别可以通过语义一致性或文本近似性予以判定,种子事件与外延事件间的关系识别可以用种子事件作为标杆,实现文本聚类,并判定同一聚类中所有文本包含的事件皆相关。而外延事件间关系识别时,由于外延事件对本身并非一致事件,文字描述必然差异较强,语义或内容一致性判定方法得不到利用,同时,相关于同一核心的外延事件对之间并非必然关联,现有的话题聚类方法也不能够适应。
技术实现思路
有鉴于此,本申请提供了一种外延事件关系识别方法及系统,用于解决现有的方法不能够适用于外延事件关系的识别的问题。为了实现上述目的,现提出的方案如下:一种外延事件关系的识别方法,包括:计算第一目标外延事件与预先获取的语料库中的各个子句的相似度值,并选择相似度值满足第一阈值且最大的子句作为基准子句;以所述基准子句为标准,抽取其上下文第一预设个数的子句,并将抽取的子句与所述基准子句确定为候选相关事件;针对每一个所述候选相关事件,计算其与所述第一目标外延事件的相关度值,并将相关度值大于第一预设值的候选相关事件确定为相关事件;针对每一个所述相关事件,计算其与第二目标外延事件的相似度值,并计算该相似度值与该相关事件利用所述第一目标外延事件计算得到的相关度值的乘积结果,将最大的乘积结果确定为所述第一目标外延事件与所述第二目标外延事件的关联度;根据所述关联度,确定所述第一目标外延事件与所述第二目标外延事件的关系。优选的,所述针对每一个所述候选相关事件,计算其与所述第一目标外延事件的相关度值,并将相关度值大于第一预设值的候选相关事件确定为相关事件,包括:分别对第一目标外延事件eA和候选相关事件vreA进行依存分析,识别出目标外延事件eA的核心词ETa、依存实体DNa和共现实体Na,候选相关事件vreA的核心词ETvma、依存实体DNvma和共现实体Nvma ;每一个候选相关事件vreA与所述第一目标外延事件eA的相关度值Y表示为:Y = α.y ΕΤ+β.(χ.yDN+ δ.y CN), α + β = I, χ + δ = I其中,α、β、χ和δ为加权系数,Yet为核心词关联因子,Ydn为依存实体关联因子,Ycn为共现实体关联因子;其中:【权利要求】1.一种外延事件关系的识别方法,其特征在于,包括: 计算第一目标外延事件与预先获取的语料库中的各个子句的相似度值,并选择相似度值满足第一阈值且最大的子句作为基准子句; 以所述基准子句为标准,抽取其上下文第一预设个数的子句,并将抽取的子句与所述基准子句确定为候选相关事件; 针对每一个所述候选相关事件,计算其与所述第一目标外延事件的相关度值,并将相关度值大于第一预设值的候选相关事件确定为相关事件; 针对每一个所述相关事件,计算其与第二目标外延事件的相似度值,并计算该相似度值与该相关事件利用所述第一目标外延事件计算得到的相关度值的乘积结果,将最大的乘积结果确定为所述第一目标外延事件与所述第二目标外延事件的关联度; 根据所述关联度,确定所述第一目标外延事件与所述第二目标外延事件的关系。2.根据权利要求1所述的识别方法,其特征在于,所述针对每一个所述候选相关事件,计算其与所述第一目标外延事件的相关度值,并将相关度值大于第一预设值的候选相关事件确定为相关事件,包括: 分别对第一目标外延事件eA和候选相关事件vreA进行依存分析,识别出目标外延事件eA的核心词ETa、依存实体DNa和共现实体Na,候选相关事件vreA的核心词ETvma、依存实体DNvma和共现实体Nvma ; 每一个候选相关事件vreA与所述第一目标外延事件eA的相关度值Y表示为:Y= α.y ΕΤ+β.(χ.yDN+ δ.Ycn), α+β = I, X + δ = I 其中,α、β、χ和δ为加权系数,Yet为核心词关联因子,Ydn为依存实体关联因子,Y?为共现实体关联因子; 其中: 3.根据权利要求2所述的识别方法,其特征在于,所述针对每一个所述相关事件,计算其与第二目标外延事件的相似度值,并计算该相似度值与该相关事件利用所述第一目标外延事件计算得到的相关度值的乘积结果,将最大的乘积结果确定为所述第一目标外延事件与所述第二目标外延事件的关联度,具体为: 计算第一目标外延事件eA与第二目标外延事件eB的关联度: d (eA, eB) = max (sim (vreAi, eB) * y (eA, vreAi)),vreAi e VREa其中,VREa为相关事件集合,sim(vreAi,eB)表示每个相关事件与第二目标外延事件eB的相似度值,Y (eA, vreAi)表示每个相关事件与第一目标外延事件eA的相关度值。4.根据权利要求1所述的识别方法,其特征在于,所述根据所述关联度,确定所述第一目标外延事件与所述第二目标外延事件的关系,包括: 利用APCluster聚类算法,根据所述关联度确定第一目标外延事件与第二目标外延事件是否归属于同一类簇,若二者属于同一类簇,则确定二者存在逻辑关系,否则不存在逻辑关系。5.根据权利要求1所述的识别方法,其特征在于,在所述针对每一个所述候选相关事件,计算其与所述第一目标外延事件的相关度值时,采用编辑距离算法来计算相关度值。6.根据权利要求1所述的识别方法,其特征在于,在所述针对每一个所述相关事件,计算其与第二目标外延事件的相似度值之前,还包括: 判断每一个所述候选相关事件与所述第一目标外延事件的相关度值是否都大于第一预设值; 如果是,则以所述基准子句为标准,继续抽取其上下文第一预设本文档来自技高网
...

【技术保护点】
一种外延事件关系的识别方法,其特征在于,包括:计算第一目标外延事件与预先获取的语料库中的各个子句的相似度值,并选择相似度值满足第一阈值且最大的子句作为基准子句;以所述基准子句为标准,抽取其上下文第一预设个数的子句,并将抽取的子句与所述基准子句确定为候选相关事件;针对每一个所述候选相关事件,计算其与所述第一目标外延事件的相关度值,并将相关度值大于第一预设值的候选相关事件确定为相关事件;针对每一个所述相关事件,计算其与第二目标外延事件的相似度值,并计算该相似度值与该相关事件利用所述第一目标外延事件计算得到的相关度值的乘积结果,将最大的乘积结果确定为所述第一目标外延事件与所述第二目标外延事件的关联度;根据所述关联度,确定所述第一目标外延事件与所述第二目标外延事件的关系。

【技术特征摘要】

【专利技术属性】
技术研发人员:洪宇姚建民马彬杨雪蓉
申请(专利权)人:苏州大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1