【技术实现步骤摘要】
一种事件类型抽取方法和装置
本申请涉及信息处理
,更具体的说是涉及一种事件类型抽取方法和装置。
技术介绍
事件抽取作为信息抽取的重要组成部分,具有广泛的应用前景和巨大的现实意义。事件抽取的目的是准确有效的从大量无序杂乱、无结构的信息中提取感兴趣的时间信息,根据事件抽取的任务定义,事件是指特定的人、物在特定时间和特定地点相互作用的一种客观事实,事件由触发词以及描述事件结构的元素构成。事件抽取要求从含有事件信息的非结构化源文本中,自动识别和抽出含有事件类型、事件元素和事件角色信息的结构化信息。目前,现有的事件提取均直接使用自动内容抽取(AutomaticContentExtraction,ACE)的标注结果,使得事件抽取的研究也仅仅局限于ACE中定义的事件类型,即,仅仅局限于限定域事件抽取。然而由于开放域中事件类型更多丰富多样,事件类型的差异相对较小,从而导致差异判别难度大,如果仍直接采用ACE,则无法准确有效的进行事件提取。
技术实现思路
有鉴于此,本申请提供了一种事件类型抽取方法和装置,以为提高事件抽取的准确性以及增大事件抽取的应用范围提供了可能。为实现上述目的 ...
【技术保护点】
一种事件类型抽取方法,其特征在于,包括:从预置的语料库中提取出多个候选语料词语;基于所述语料库,确定预置的触发词集合中的基准触发词与所述候选语料词语的关联性,其中,所述基准触发词为通过自动内容抽取技术确定的;对于任意一个基准触发词,将与所述基准触发词关联性满足预设要求的候选语料词语确定为目标触发词,得到每个所述基准触发词对应的至少一个所述目标触发词;分别确定每个所述目标触发词的特征;基于所述目标触发词的特征,对所有的所述目标触发词进行聚类,得到聚类出的多个属于不同事件类别的聚类集合,其中,每个聚类集合对应着一种事件类别,且每个聚类集合包括至少一个目标触发词。
【技术特征摘要】
1.一种事件类型抽取方法,其特征在于,包括:从预置的语料库中提取出多个候选语料词语;基于所述语料库,确定预置的触发词集合中的基准触发词与所述候选语料词语的关联性,其中,所述基准触发词为通过自动内容抽取技术确定的;对于任意一个基准触发词,将与所述基准触发词关联性满足预设要求的候选语料词语确定为目标触发词,得到每个所述基准触发词对应的至少一个所述目标触发词;分别确定每个所述目标触发词的特征;基于所述目标触发词的特征,对所有的所述目标触发词进行聚类,得到聚类出的多个属于不同事件类别的聚类集合,其中,每个聚类集合对应着一种事件类别,且每个聚类集合包括至少一个目标触发词。2.根据权利要求1所述的方法,其特征在于,所述从预置的语料库中提取出候选语料词语,包括:确定所述预置的语料库中的多个语料文本内所包含的待定语料词语;滤除所述待定语料词语中所包含的预设无用词语,得到所述候选语料词语,其中,所述预设无用词语包括停用词和虚词。3.根据权利要求1所述的方法,其特征在于,所述基于所述语料库,确定预置的触发词集合中的基准触发词与所述候选语料词语的关联性,包括:针对每个所述候选语料词语,依次计算所述候选语料词语与触发词集合中每个基准触发词在所述语料库中每篇语料文本内的初始关联性;对于任意一对所述基准触发词和候选语料词语,将所述基准触发词与候选语料词语在每篇语料文本中的初始关联性进行加和,得到所述基准触发词与候选语料词语在所述语料库中的关联性。4.根据权利要求3所述的方法,其特征在于,所述计算所述候选语料词语与触发词集合中每个基准触发词在所述语料库中每篇语料文本内的初始关联性,包括:对于一篇语料文本,将所述基准触发词和所述候选语料词语在所述语料文本中同一句子内出现的第一次数,与最小出现次数的比值确定为该基准触发词语与该候选语料词语在所述语料文本中的初始关联性,其中,所述最小出现次数为所述基准触发词在所述语料文本中出现的次数,以及所述候选语料词语在所述语料文本中出现的次数中的最小值。5.根据权利要求3所述的方法,其特征在于,所述计算所述候选语料词语与触发词集合中每个基准触发词在所述语料库中每篇语料文本内的初始关联性,包括:确定多个预置的连接词;对于一篇语料文本,从所述语料文本中确定出同时具有所述基准触发词和候选语料词语,且通过预置的连接词连接所述基准触发词和候选语料词语的第一目标句子;针对每一个预置的连接词ji,将所述语料文本中,具有所述预置的连接词ji的第一目标句子中的数量,与最小出现次数的比值确定为所述基准触发词和所述候选语料词语在所述语料文本中关于所述连接词ji的相关性Con(conji);利用如下公式,计算所述基准触发词seed和候选语料词语c在所述语料文本di中的初始关联性为Rdi(seed,c):其中,i为从1到k的自然数,k表示所述语料文本di中,所有所述第一目标句子中具有的所述预置的连接词的总数量。6.根据权利要求3所述的方法,其特征在于,所述计算所述候选语料词语与触发词集合中每个基准触发词在所述语料库中每篇语料文本内的初始关联性,包括:确定预置的多种关...
【专利技术属性】
技术研发人员:杨雪蓉,洪宇,姚建民,朱巧明,
申请(专利权)人:苏州大学,
类型:发明
国别省市:江苏,32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。