用于关系抽取的方法、装置、设备和介质制造方法及图纸

技术编号:31798296 阅读:15 留言:0更新日期:2022-01-08 10:58
在此提供了一种训练关系抽取模型的方法、装置、设备和存储介质。这里描述的方法包括:基于由文档中的目标实体对和与目标实体对关联的目标关系组成的给定三元组,确定在给定三元组的条件下一组规则的概率分布,一组规则用于描述目标实体对之间联系的逻辑。基于在给定三元组的条件下一组规则的概率分布,确定在给定三元组的条件下得分的概率分布,得分指示在文档中目标关系对于目标实体对是否有效。基于与得分对应的标记值,通过使在给定三元组的条件下得分的概率分布的参数的似然函数最大化,获得经训练的关系抽取模型。根据本公开的事实,通过利用规则,可以容易地捕获关系的长程依赖性并且提供较好的可解释性。性并且提供较好的可解释性。性并且提供较好的可解释性。

【技术实现步骤摘要】
用于关系抽取的方法、装置、设备和介质


[0001]本公开的各实现方式涉及计算机领域,更具体地,涉及用于关系抽取的方法、装置、设备和计算机存储介质。

技术介绍

[0002]目前,文档级别的关系抽取方法备受关注。文档级别的关系抽取可以应用于问答、搜索等领域。通常,可以利用基于序列的模型或基于图的模型来考虑文档中更长的上下文和关系的长程依赖性。例如,可以通过池化操作来计算长程关系的表示,或者可以利用图中的节点来表示文档中距离较远的实体,从而更好地表征实体之间的长程关系。
[0003]然而,利用上述方法抽取出的长程关系的可解释性较差。因此,需要能够提供更好的可解释性的文档级别的关系抽取方法。

技术实现思路

[0004]在本公开的第一方面,提供了一种训练关系抽取模型的方法。该方法包括:基于由文档中的目标实体对和与所述目标实体对关联的目标关系组成的给定三元组,确定在给定三元组的条件下一组规则的概率分布,所述目标关系选自用于描述所述文档中的实体对之间联系的一组关系,所述一组规则用于描述所述目标实体对之间联系的逻辑;基于所述在给定三元组的条件下一组规则的概率分布,确定在给定三元组的条件下得分的概率分布,所述得分指示在所述文档中所述目标关系对于所述目标实体对是否有效;以及基于与所述得分对应的标记值,通过使所述在给定三元组的条件下得分的概率分布的参数的似然函数最大化,获得经训练的所述关系抽取模型。
[0005]在本公开的第二方面中,提供了一种用于训练关系抽取模型的装置。该装置包括:规则概率确定模块,被配置为基于由文档中的目标实体对和与所述目标实体对关联的目标关系组成的给定三元组,确定在给定三元组的条件下一组规则的概率分布,所述目标关系选自用于描述所述文档中的实体对之间联系的一组关系,所述一组规则用于描述所述目标实体对之间联系的逻辑;得分概率确定模块,被配置为基于所述在给定三元组的条件下一组规则的概率分布,确定在给定三元组的条件下得分的概率分布,所述得分指示在所述文档中所述目标关系对于所述目标实体对是否有效;以及优化模块,被配置为基于与所述得分对应的标记值,通过使所述在给定三元组的条件下得分的概率分布的参数的似然函数最大化,获得经训练的所述关系抽取模型。
[0006]在本公开的第三方面,提供了一种电子设备,包括:存储器和处理器;其中存储器用于存储一条或多条计算机指令,其中一条或多条计算机指令被处理器执行以实现根据本公开的第一方面的方法。
[0007]在本公开的第四方面,提供了一种计算机可读存储介质,其上存储有一条或多条计算机指令,其中一条或多条计算机指令被处理器执行实现根据本公开的第一方面的方法。
[0008]在本公开的第五方面,提供了一种关系抽取模型的方法。该方法包括:基于由文档中的目标实体对和与所述目标实体对关联的目标关系组成的给定三元组,生成用于描述所述目标实体对之间联系的逻辑的一组规则,所述目标关系选自用于描述所述文档中的实体对之间联系的一组关系;基于所述一组规则,确定在所述目标实体对之间的至少一个路径;以及基于所述至少一个路径途经的实体对以及关联的关系,确定指示在所述文档中所述目标关系对于所述目标实体对是否有效的得分。
[0009]在本公开的第六方面,提供了一种用于关系抽取模型的装置。该装置包括:规则生成模块,被配置为基于由文档中的目标实体对和与所述目标实体对关联的目标关系组成的给定三元组,生成用于描述所述目标实体对之间联系的逻辑的一组规则,所述目标关系选自用于描述所述文档中的实体对之间联系的一组关系;路径确定模块,被配置为基于所述一组规则,确定在所述目标实体对之间的至少一个路径;以及得分确定模块,被配置为基于所述至少一个路径途经的实体对以及关联的关系,确定指示在所述文档中所述目标关系对于所述目标实体对是否有效的得分。
[0010]在本公开的第七方面,提供了一种电子设备,包括:存储器和处理器;其中存储器用于存储一条或多条计算机指令,其中一条或多条计算机指令被处理器执行以实现根据本公开的第五方面的方法。
[0011]在本公开的第八方面,提供了一种计算机可读存储介质,其上存储有一条或多条计算机指令,其中一条或多条计算机指令被处理器执行实现根据本公开的第五方面的方法。
[0012]根据本公开的各种实施例,通过利用规则进行逻辑推理,可以容易地捕获关系的长程依赖性并且提供较好的可解释性。此外,通过迭代优化概率模型的参数和隐变量,可以在优化模型参数的同时自动学习作为隐变量的规则,从而能够基于针对文档所生成的规则来抽取该文档中的关系,以获得更好的关系抽取性能。再者,可以容易地对常规的关系抽取模型进行修改来实现根据本公开的实施例的一些功能,因而本方案具有较高的可移植性。
附图说明
[0013]结合附图并参考以下详细说明,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中,相同或相似的附图标注表示相同或相似的元素,其中:
[0014]图1示出了本公开的多个实施例能够在其中实现的示例环境的示意图;
[0015]图2示出了根据本公开的一些实施例的关系抽取的示例过程的示意图;
[0016]图3示出了根据本公开的一些实施例的训练关系抽取模型的示例方法的流程图;
[0017]图4示出了根据本公开一些实施例的优化过程的示例方法的流程图。
[0018]图5示出了根据本公开的一些实施例的用于关系抽取的装置的示意性结构框图;以及
[0019]图6示出了能够实施本公开的多个实施例的计算设备的框图。
具体实施方式
[0020]下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这
里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
[0021]在本公开的实施例的描述中,术语“包括”及其类似用语应当理解为开放性包含,即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。
[0022]如上所述,利用目前的关系抽取方法得到的长程关系的可解释性通常较差。
[0023]为了至少部分地解决上述问题以及其他潜在问题中的一个或者多个问题,本公开的示例实施例提出了一种关系抽取模型的方法。该方法包括:基于描述文档中实体对之间联系的一组关系中与目标实体对关联的目标关系以及目标实体对,生成用于描述目标实体对之间联系的逻辑的一组规则,每个规则由一组关系中的多个关系的序列表示;基于一组规则,确定在目标实体对之间的至少一个路径;以及至少基于至少一个路径途经的实体对以及关联的关系,确定指示在文档中目标关系对于目标实体对是否有效的得分。
[0024]基于这样的方本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种训练关系抽取模型的方法,包括:基于由文档中的目标实体对和与所述目标实体对关联的目标关系组成的给定三元组,确定在给定三元组的条件下一组规则的概率分布,所述目标关系选自用于描述所述文档中的实体对之间联系的一组关系,所述一组规则用于描述所述目标实体对之间联系的逻辑;基于所述在给定三元组的条件下一组规则的概率分布,确定在给定三元组的条件下得分的概率分布,所述得分指示在所述文档中所述目标关系对于所述目标实体对是否有效;以及基于与所述得分对应的标记值,通过使所述在给定三元组的条件下得分的概率分布的参数的似然函数最大化,获得经训练的所述关系抽取模型。2.根据权利要求1所述的方法,其中确定在给定三元组的条件下得分的概率分布包括:基于所述一组规则,确定在所述目标实体对之间的至少一个路径;基于所述至少一个路径途经的实体对以及关联的关系,确定所述在给定三元组和一组规则的条件下得分的概率分布;以及基于所述在给定三元组的条件下一组规则的概率分布以及所述在给定三元组和一组规则的条件下得分的概率分布,确定所述在给定三元组的条件下得分的概率分布。3.根据权利要求2所述的方法,其中使所述在给定三元组的条件下得分的概率分布的参数的似然函数最大化包括:基于所述参数的当前值,确定所述一组规则的后验概率分布;以及基于所述一组规则的后验概率分布,通过使所述似然函数最大化来确定所述参数的更新值。4.根据权利要求3所述的方法,其中确定所述一组规则的后验概率分布包括:基于所述在给定三元组的条件下一组规则的概率分布、所述至少一个路径途经的实体对以及所述关联的关系、以及所述标记值,确定针对所述一组规则中的每个规则的得分函数;基于针对每个规则的得分函数,确定每个规则的后验概率分布;以及基于所述每个规则的后验概率分布和所述一组规则中规则的数目,确定所述一组规则的近似后验概率分布,以作为所述一组规则的后验概率分布。5.根据权利要求4所述的方法,其中使所述似然函数最大化包括:使所述似然函数的下限最大化,所述似然函数的下限与所述一组规则的近似后验概率分布关联。6.根据权利要求5所述的方法,其中使所述似然函数的下限最大化包括:基于所述一组规则的近似后验概率分布,采样第一组更新规则;基于所述第一组更新规则,更新所述在给定三元组的条件下一组规则的概率分布;基于经更新的在给定三元组的条件下一组规则的概率分布,采样第二组更新规则;以及基于所述第二组更新规则,更新所述在给定三元组和一组规则的条件下得分的概率分布。7.根据权利要求1所述的方法,其中所述一组规则中的每个规则由所述一组关系中的多个关系的序列表示。
8.根据权利要求1所述的方法,其中使所述在给定三元组的条件下得分的概率分布的参数的似然函数最大化包括:利用期望最大化算法来对所述参数进行最大似然估计。9.一种用于关系抽取的方法,包括:基于由文档中的目标实体对和与所述目标实体对关联的目标关系组成的给定三元组,生成用于描述所述目标实体对之间联系的逻辑的一组规则,所述目标关系选自用于描述所述文档中的实体对之间联系的一组关系;基于所述一组规则,确定在所述目标实体对之间的至少一个路径;以及基于所述至少一个路径途经的实体对以及关联的关系,确定指示在所述文档中所述目标关系对于所述目标实体对是否有效的得分。10.根据权利要求9所述的方法,其中确定在所述目标实体对之间的至少一个路径包括:针对所述一组规则中的每个规则,确定对应的路径,所述路径开始于所述目标实体对中的起始实体并且结束于所述目标实体对中的末尾实体;并且所述路径途经的实体对之间联系的逻辑满足所述规则。11.根据权利要求9所述的方法,其中所述一组规则中的每个规则由所述一组关系中的多...

【专利技术属性】
技术研发人员:孙长志茹栋宇
申请(专利权)人:北京有竹居网络技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1