当前位置: 首页 > 专利查询>苏州大学专利>正文

中文事件触发词的扩展方法及系统技术方案

技术编号:8105826 阅读:322 留言:0更新日期:2012-12-21 04:45
本发明专利技术实施例公开了一种中文事件触发词的扩展方法及系统,本方法利用已知触发词形态结构,结合义原相似度来扩展未知触发词,这样待抽取事件的触发词就包括已知触发词以及扩展的未知触发词,这样在抽取事件实例时,不仅可以抽取已知触发词对应的事件实例,还可以抽取扩展的未知触发词对应的事件实例。进一步的,在抽取事件时,能够识别出更多的事件实例,提高事件抽取系统的召回率。

【技术实现步骤摘要】

本专利技术涉及一种中文事件触发词的扩展方法及系统
技术介绍
事件是指在真实世界中已经/可能/将要发生的事情,一般包括时间、地点和人物。由于表达方式不同,每一特定的事件可能不止有一个事件实例。事件是信息表示的一种形式,可以从文本中抽取人们感兴趣的事件实例。从文本中抽取出相应的事件实例通常是通过识别事件的触发词来实现,所以触发词是识别事件实例的关键。由于语言表达的多样性,不可能找出某一事件的所有触发词,只能预先知道待抽取事件的一部分触发词,称这部分触发词为已知触发词,这样如果发现某一句子包含已知的触发词,那么可以将该句子作为待抽取事件的一候选事件实例,而那些 未知触发词对应的事件实例就无法抽取。综上,现有技术中的事件实例抽取方法只能抽取与已知触发词对应的事件实例。
技术实现思路
有鉴于此,本专利技术提供了一种中文事件触发词的扩展方法及系统,以克服现有技术中事件实例抽取方法只能抽取与已知触发词对应的事件实例的问题。为实现上述目的,本专利技术提供如下技术方案一种中文事件触发词的扩展方法,包括A、从语料库中获取由一个或两个语素组成的已知触发词以及所述已知触发词对应的事件类型,形成已知触发词集合,所述语料库包括已知触发词以及与所述已知触发词对应的事件类型;B、将所述已知触发词集合中的每一已知触发词以语素为单位进行切分,形成切分已知触发词集合;C、将所述切分已知触发词集合中每一语素进行词性标注,形成带词性切分已知触发词集合;D、获取所述已知触发词集合中每一已知触发词的所有义原,形成已知触发词义原集合,所述已知触发词义原集合包括已知触发词、该已知触发词对应的事件类型以及该已知触发词的所有义原;E、确定出所述已知触发词义原集合中具有唯一义原的已知触发词,形成已知触发词唯一义原集合,所述已知触发词唯一义原集合包括已知触发词、该已知触发词对应的事件类型以及该已知触发词的唯一义原;F、在所述已知触发词义原集合中的一已知触发词对应的义原为多个时,分别计算所述已知触发词的每一义原与所述已知触发词唯一义原集合中与该已知触发词具有相同事件类型的每一已知触发词的唯一义原的相似度,将与所述唯一义原相似度最高的义原作为具有多个义原的已知触发词的唯一义原,并将该已知触发词、该已知触发词对应的事件类型以及该已知触发词的唯一义原存储于所述已知触发词唯一义原集合中;G、根据预设的形态结构和带词性切分已知触发词集合中每一语素的词性,确定所述已知触发词集合中每一触发词的形态结构,形成已知触发词形态结构集合;H、根据触发词的形态结构以及所述已知触发词唯一义原集合,确定所述已知触发词形态结构集合中每一已知触发词的基本语素,形成基本语素集合;J、确定所述待抽取事件的文本中包括所述基本语素集合中任一基本语素的词,形成第一未知触发词集合;K、将所述第一未知触发词集合中不满足预设条件的词删除,形成扩展未知触发词口 O其中,所述每一义原为SI,所述已知触发词唯一义原集合中与该已知触发词具有相同事件类型的每一已知触发词的唯一义原为S2,所述计算每一义原与所述已知触发词唯一义原集合中与该已知触发词具有相同事件类型的每一已知触发词的唯一义原的相似度具体包括通过相似度计算函数Sim(SI, S2) = a/(a+d)计算每一义原SI与唯一义原S2的相似度,其中,a为预设可调参数,d为每一义原SI与唯一义原S2的路径距离。其中,所述触发词的形态结构包括单语素结构、同位结构、谓宾结构、修饰结构以及谓辅结构,其中所述单语素结构是指已知触发词是名词或动词的语素,所述同位结构是指已知触发词的第一语素与第二语素均为动词,所述修饰结构是指已知触发词第一语素修饰第二语素,所述谓宾结构是指已知触发词的第一语素与第二语素是谓语和宾语的关系,已知触发词由所述第一语素与所述第二语素组成,且所述第一语素位于所述第二语素之前。其中,步骤H具体包括H1、当所述已知触发词形态结构是单语素结构时,确定所述已知触发词为所述已知触发词的基本语素;H2、当所述已知触发词形态结构是谓辅结构时,确定所述已知触发词的第一语素为所述已知触发词的基本语素;H3、当所述已知触发词形态结构是谓宾结构时,确定所述已知触发词的第二语素为所述已知触发词的基本语素;H4、当所述已知触发词形态结构是修饰结构时,确定所述已知触发词的第二语素为所述已知触发词的基本语素;H5、当所述已知触发词形态结构是同位结构时,将同位结构的所述已知触发词以语素为单位进行切分,并获取每个语素的所有义原,分别计算每一义原和所述已知触发词唯一义原集合中与所述同位结构的已知触发词具有相同事件类型的每一已知触发词对应的唯一义原的相似度,将所述所有义原中对应的相似度最高一义原对应的语素作为所述已知触发词的基本语素。其中,步骤J具体包括J1、将所述待抽取事件的文本进行分词,得到至少两个词组;J2、筛选出包含所述基本语素集合中任一基本语素的词组,形成第一未知触发词隹A 口 O其中,步骤K具体包括K1、将所述第一未知触发词集合与所述已知触发词集合相同的词组删除,形成第二未知触发词集合;K2、删除所述第二未知触发词集合中的非动词和非名词的词组,形成第三未知触发词集合;K3、删除所述第三未知触发词集合中至少包括三个语素的词组,形成第四未知触发词集合;K4、筛选出所述第四未知触发词集合中与所述已知触发词形态结构集合中的一已知触发词具有相同或相似形态结构以及相同基本语素的已知触发词,形成第五未知触发词集合;其中,单语素结构和谓辅结构相互定义对方为相似形态结构; K5、根据所述第五未知触发词集合中未知触发词的形态结构,获得所述扩展未知触发词集合。其中,步骤K5具体包括K51、当所述第五未知触发词集合中未知触发词的形态结构是单语素结构时,获取所述未知触发词的所有义原,并分别计算所述未知触发词的所述所有义原中每一义原与所述已知触发词集合中每一已知触发词的唯一义原的相似度,若其中任意一个相似度为1,则具有单语素结构的未知触发词属于所述扩展未知触发词集合;K52、当所述第五未知触发词集合中未知触发词的形态结构是谓辅结构,该谓辅结构的未知触发词的第一语素属于所述基本语素集合,以及未知触发词的第一语素和所述已知触发词形态结构集合中形态结构为单语素结构或谓辅结构的任意一个已知触发词的第一语素相同,则所述谓辅结构的未知触发词属于所述扩展未知触发词集合;K53、当所述第五未知触发词集合中未知触发词的形态结构是谓宾结构,且该谓宾结构的未知触发词的第二语素属于所述基本语素集合以及计算所得的所述未知触发词的第一语素与所述已知触发词形态结构集合中一谓宾结构的已知触发词的第一语素的义原相似度大于第一阈值时,所述谓宾结构的未知触发词属于所述扩展未知触发词集合;K54、当所述第五未知触发词集合中未知触发词的形态结构是修饰结构,且修饰结构的未知触发词的第二语素属于所述基本语素集合以及计算所得的所述未知触发词对应的每一义原与所述已知触发词集合中每一已知触发词的唯一义原的相似度的最大值为I时,所述修饰结构的未知触发词属于所述扩展未知触发词集合;K55、当所述第五未知触发词集合中未知触发词的形态结构是同位结构,且计算所得的所述未知触发词对应的每一义原与所述已知触发词集合中每一已知触发词的唯一义原的相似度的最大值为I本文档来自技高网...

【技术保护点】
一种中文事件触发词的扩展方法,其特征在于,包括:A、从语料库中获取由一个或两个语素组成的已知触发词以及所述已知触发词对应的事件类型,形成已知触发词集合,所述语料库包括已知触发词以及与所述已知触发词对应的事件类型;B、将所述已知触发词集合中的每一已知触发词以语素为单位进行切分,形成切分已知触发词集合;C、将所述切分已知触发词集合中每一语素进行词性标注,形成带词性切分已知触发词集合;D、获取所述已知触发词集合中每一已知触发词的所有义原,形成已知触发词义原集合,所述已知触发词义原集合包括:已知触发词、该已知触发词对应的事件类型以及该已知触发词的所有义原;E、确定出所述已知触发词义原集合中具有唯一义原的已知触发词,形成已知触发词唯一义原集合,所述已知触发词唯一义原集合包括:已知触发词、该已知触发词对应的事件类型以及该已知触发词的唯一义原;F、在所述已知触发词义原集合中的一已知触发词对应的义原为多个时,分别计算所述已知触发词的每一义原与所述已知触发词唯一义原集合中与该已知触发词具有相同事件类型的每一已知触发词的唯一义原的相似度,将与所述唯一义原相似度最高的义原作为具有多个义原的已知触发词的唯一义原,并将该已知触发词、该已知触发词对应的事件类型以及该已知触发词的唯一义原存储于所述已知触发词唯一义原集合中;G、根据预设的形态结构和带词性切分已知触发词集合中每一语素的词性,确定所述已知触发词集合中每一触发词的形态结构,形成已知触发词形态结构集合;H、根据触发词的形态结构以及所述已知触发词唯一义原集合,确定所述已知触发词形态结构集合中每一已知触发词的基本语素,形成基本语素集合;J、确定所述待抽取事件的文本中包括所述基本语素集合中任一基本语素的词,形成第一未知触发词集合;K、将所述第一未知触发词集合中不满足预设条件的词删除,形成扩展未知触发词集合。...

【技术特征摘要】

【专利技术属性】
技术研发人员:李培峰朱巧明朱晓旭
申请(专利权)人:苏州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1