一种实体行为抽取方法、装置、计算机装置及计算机可读存储介质制造方法及图纸

技术编号:21833277 阅读:24 留言:0更新日期:2019-08-10 18:14
本发明专利技术适用于互联网技术领域,提供了一种实体行为抽取方法,该方法包括:对预先获取的语料集中的语句提取三元组;将主语元素、谓语元素且待分类元素的核心词相同的三元组聚合在一起,得到三元组分组;在确保语义信息缺损不会引起歧义的前提下,从三元组分组中确定最短三元组;将最短三元组中的主语元素及谓语元素分别划分为实体行为的主语和谓语,将最短三元组中的待分类元素划分为实体行为的宾语、时间、地点及机构中的一个;根据所述实体行为的主语、谓语及所述待分类元素的类别,生成第一实体行为。本发明专利技术能够保障从三元组分组中选择的最短三元组的语义及信息的完整性,并对最短三元组中的待分类元素准确分类,提高实体行为抽取的准确度。

A Method, Device, Computer Device and Computer Readable Storage Media for Entity Behavior Extraction

【技术实现步骤摘要】
一种实体行为抽取方法、装置、计算机装置及计算机可读存储介质
本专利技术属于互联网
,尤其涉及一种实体行为抽取方法、装置、计算机装置及计算机可读存储介质。
技术介绍
随着各种自然语言处理技术的发展和成熟,自然语言抽取的目标和方向正在不断的深入和拓展。自然语言抽取中比较重要的方向有实体关系抽取,即从一句或一段自由文本中,发现一个实体与其他实体二者之间是否有关系,并能够对两者存在的关系进行分类。由于隐含实体关系的文本在开源互联网数据中占的比例极低,剩余文本中用于表征实体动作、实体行为的句子对于实体关系推理、性格特点分析等方面都有着重要作用,因此需要对文本进行实体行为抽取,通过实体行为抽取可以完善知识图谱构建。但是,由于现有自然语言的多样性,实体行为抽取有时只能表达一个行为中的部分信息,会出现信息缺失和语义不完整,导致实体行为抽取不准确的问题。
技术实现思路
本专利技术实施例提供一种实体行为抽取方法、装置、计算机装置及计算机可读存储介质,旨在解决现有技术中由于现有自然语言的多样性,实体行为抽取有时只能表达一个行为中的部分信息,会出现信息缺失和语义不完整,导致实体行为抽取不准确的问题。本专利技术是这样实现的,一种实体行为抽取方法,包括:通过NLP工具的OpenIE功能对预先获取的语料集中的语句提取三元组,所述三元组包括主语元素、谓语元素及待分类元素;将主语元素的核心词相同、谓语元素的核心词相同且待分类元素的核心词相同的三元组聚合在一起,得到三元组分组;在确保语义信息缺损不会引起歧义的前提下,从所述三元组分组中确定最短三元组;将所述最短三元组中的主语元素划分为实体行为的主语,将所述最短三元组中的谓语元素划分为实体行为的谓语,并基于待分类元素核心词的句法依赖关系和命名实体类别,将所述最短三元组中的待分类元素划分为实体行为的宾语、时间、地点及机构中的一个类别;根据所述实体行为的主语、所述实体行为的谓语及所述待分类元素的类别,生成第一实体行为。进一步地,所述在确保语义信息缺损不会引起歧义的前提下,从所述三元组分组中确定最短三元组,包括:根据三元组之间的包含关系构建多叉树,其中,所述多叉树的节点满足以下关系:第i组的第j个三元组中的子节点为第i组的第k个三元组当且仅当三元组的待分类元素与三元组的待分类元素的最长公共子序列,与三元组的待分类元素相同,且不存在三元组的待分类元素既包含于三元组的待分类元素又包含于三元组的待分类元素;将所述多叉树中导致命名实体、名词、介词、数字或从句缺失的边去掉,得到修改后的多叉树;从根节点遍历所述修改后的多叉树,从叶子节点中得到最短三元组。进一步地,所述基于待分类元素核心词的句法依赖关系和命名实体类别,将所述最短三元组中的宾语元素划分为实体行为的宾语、时间、地点及机构中的一个类别,包括:根据待分类元素核心词的句法依赖关系、命名实体类别、词性,以及谓语元素末尾使用的介词、及谓语元素末尾介词的句法依赖关系,将所述最短三元组中的待分类元素划分为实体行为的宾语、时间、地点、机构中的一个类别。进一步地,所述实体行为抽取方法还包括:获取第二实体行为,在所述第一实体行为的宾语与所述第二实体行为的主语为相同命名实体时,对所述第一实体行为与所述第二实体行为进行合并,生成行为链式结构。本专利技术还提供一种实体行为抽取装置,包括:提取模块,用于通过NLP工具的OpenIE功能对预先获取的语料集中的语句提取三元组,所述三元组包括主语元素、谓语元素及待分类元素;聚合模块,用于将主语元素的核心词相同、谓语元素的核心词相同且待分类元素的核心词相同的三元组聚合在一起,得到三元组分组;确定模块,用于在确保语义信息缺损不会引起歧义的前提下,从所述三元组分组中确定最短三元组;划分模块,用于将所述最短三元组中的主语元素划分为实体行为的主语,将所述最短三元组中的谓语元素划分为实体行为的谓语,并基于待分类元素核心词的句法依赖关系和命名实体类别,将所述最短三元组中的待分类元素划分为实体行为的宾语、时间、地点及机构中的一个类别;生成模块,用于根据所述实体行为的主语、所述实体行为的谓语及所述待分类元素的类别,生成第一实体行为。进一步地,所述确定模块包括:构建子模块,用于根据三元组之间的包含关系构建多叉树,其中,所述多叉树的节点满足以下关系:第i组的第j个三元组中的子节点为第i组的第k个三元组当且仅当三元组的待分类元素与三元组的待分类元素的最长公共子序列,与三元组的待分类元素相同,且不存在三元组的待分类元素既包含于三元组的待分类元素又包含于三元组的待分类元素;剪枝子模块,用于将所述多叉树中导致命名实体、名词、介词、数字或从句缺失的边去掉,得到修改后的多叉树;处理子模块,用于从根节点遍历所述修改后的多叉树,从叶子节点中得到最短三元组。进一步地,所述划分模块,还用于根据待分类元素核心词的句法依赖关系、命名实体类别、词性,以及谓语元素末尾使用的介词、及谓语元素末尾介词的句法依赖关系,将所述最短三元组中的待分类元素划分为实体行为的宾语、时间、地点、机构中的一个类别。进一步地,所述实体行为抽取装置还包括:合并模块,用于获取第二实体行为,在所述第一实体行为的宾语与所述第二实体行为的主语为相同命名实体时,对所述第一实体行为与所述第二实体行为进行合并,生成行为链式结构。本专利技术还提供一种计算机装置,所述计算机装置包括处理器,所述处理器用于执行存储器中计算机程序时实现如上述所述实体行为抽取装置的步骤。本专利技术还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述所述实体行为抽取装置的步骤。本专利技术提供的实体行为抽取方法,通过在实体行为抽取过程中确保语义及信息的完整性,并准确对待分类元素进行分类,根据实体行为的主语、谓语、待分类元素的分类生成实体行为,从而提高实体行为抽取的准确度,通过行为链将多个实体行为进行链接,进而能够得到一个以虚拟节点为中心的实体行为的图谱表达,与虚拟节点关联内容的包括行为的发起方、接收方、动作、时间、地点等元素,丰富实体行为抽取的内容。附图说明图1是本专利技术实施例提供的实体行为抽取方法的实现流程图;图2是本专利技术实施例提供的句法依赖分析示意图;图3是本专利技术实施例提供的所述在确保语义信息缺损不会引起歧义的前提下,从所述三元组分组中确定最短三元组的实现流程图;图4是本专利技术实施例提供的实体行为抽取装置的一结构示意图;图5是本专利技术实施例提供的实体行为抽取装置的确定模块的结构示意图;图6是本专利技术实施例提供的实体行为抽取装置的另一结构示意图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。图1所示为本专利技术实施例提供的实体行为抽取方法的流程图。所述实体行为抽取方法包括以下步骤:步骤S101、通过NLP工具的OpenIE功能对预先获取的语料集中的语句提取三元组,所述三元组包括主语元素、谓语元素及待分类元素。在本实施例中,NLP是指自然语言处理,是英文NnaturalLanguageProcessing的简称,OpenIE是指开放域信息抽取,是英文OpenInformationExtract的简称。O本文档来自技高网...

【技术保护点】
1.一种实体行为抽取方法,其特征在于,所述方法包括:通过NLP工具的Open IE功能对预先获取的语料集中的语句提取三元组,所述三元组包括主语元素、谓语元素及待分类元素;将主语元素的核心词相同、谓语元素的核心词相同且待分类元素的核心词相同的三元组聚合在一起,得到三元组分组;在确保语义信息缺损不会引起歧义的前提下,从所述三元组分组中确定最短三元组;将所述最短三元组中的主语元素划分为实体行为的主语,将所述最短三元组中的谓语元素划分为实体行为的谓语,并基于待分类元素核心词的句法依赖关系和命名实体类别,将所述最短三元组中的待分类元素划分为实体行为的宾语、时间、地点及机构中的一个类别;根据所述实体行为的主语、所述实体行为的谓语及所述待分类元素的类别,生成第一实体行为。

【技术特征摘要】
1.一种实体行为抽取方法,其特征在于,所述方法包括:通过NLP工具的OpenIE功能对预先获取的语料集中的语句提取三元组,所述三元组包括主语元素、谓语元素及待分类元素;将主语元素的核心词相同、谓语元素的核心词相同且待分类元素的核心词相同的三元组聚合在一起,得到三元组分组;在确保语义信息缺损不会引起歧义的前提下,从所述三元组分组中确定最短三元组;将所述最短三元组中的主语元素划分为实体行为的主语,将所述最短三元组中的谓语元素划分为实体行为的谓语,并基于待分类元素核心词的句法依赖关系和命名实体类别,将所述最短三元组中的待分类元素划分为实体行为的宾语、时间、地点及机构中的一个类别;根据所述实体行为的主语、所述实体行为的谓语及所述待分类元素的类别,生成第一实体行为。2.根据权利要求1所述的实体行为抽取方法,其特征在于,所述在确保语义信息缺损不会引起歧义的前提下,从所述三元组分组中确定最短三元组,包括:根据三元组之间的包含关系构建多叉树,其中,所述多叉树的节点满足以下关系:第i组的第j个三元组中的子节点为第i组的第k个三元组当且仅当三元组的待分类元素与三元组的待分类元素的最长公共子序列,与三元组的待分类元素相同,且不存在三元组的待分类元素既包含于三元组的待分类元素又包含于三元组的待分类元素;将所述多叉树中导致命名实体、名词、介词、数字或从句缺失的边去掉,得到修改后的多叉树;从根节点遍历所述修改后的多叉树,从叶子节点中得到最短三元组。3.根据权利要求2所述的实体行为抽取方法,其特征在于,所述基于待分类元素核心词的句法依赖关系和命名实体类别,将所述最短三元组中的待分类元素划分为实体行为的宾语、时间、地点及机构中的一个类别,包括:根据待分类元素核心词的句法依赖关系、命名实体类别、词性,以及谓语元素末尾使用的介词、谓语元素末尾介词的句法依赖关系,将所述最短三元组中的待分类元素划分为实体行为的宾语、时间、地点、机构中的一个类别。4.根据权利要求1所述的实体行为抽取方法,其特征在于,所述方法还包括:获取第二实体行为,在所述第一实体行为的宾语与所述第二实体行为的主语为相同命名实体时,对所述第一实体行与所述第二实体行为进行合并,生成行为链式结构。5.一种实体行为抽取装置,其特征在于,包括:提取模块,用于通过NLP工具的OpenIE功能对预先获取的语料集中的语句提取...

【专利技术属性】
技术研发人员:王志超赫中翮郑敏黄九鸣张圣栋
申请(专利权)人:湖南星汉数智科技有限公司
类型:发明
国别省市:湖南,43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1