System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于规则融合编码的稀疏关系推理方法与装置制造方法及图纸_技高网

一种基于规则融合编码的稀疏关系推理方法与装置制造方法及图纸

技术编号:40274542 阅读:9 留言:0更新日期:2024-02-02 23:01
本发明专利技术提供了一种基于规则融合编码的稀疏关系推理方法与装置,从自然语料中获取头实体、实体关系和尾实体,通过挖掘各个实体的共现规则,得到各个实体的频繁规则集,通过所述频繁规则集对各个实体进行相应的编码,再利用各个实体相对于对应实体关系的权重,对实体关系进行编码,从而对实体的编码信息和实体关系的编码信息进行训练,获取关系推理模型,所述关系推理模型即可对其他需要推理的实体进行关系获取,改善了现有稀疏特征的自然语料中推理关系获取低效的问题,并能作为数据挖掘手段为基于实体关系的推荐、预测和查询等任务提供数据基础。

【技术实现步骤摘要】

本专利技术涉及实体关系推理领域,特别是涉及一种基于规则融合编码的稀疏关系推理方法与装置


技术介绍

1、如今关系推理已经成为社交用户画像、金融风险评估、智能医疗等业务领域中对于大数据挖掘的重要需求,目的是通过基于已知的各种相关信息对目标实体间缺失的关系进行推理,例如补全目标用户社交网络、推理机构金融关系和构建症状与疾病知识关联等。

2、随着自然语言处理技术的飞速发展,通过挖掘语义特征来进行实体关系推理的方法成为研究热点并广泛被应用,这些模型往往通过大量语料数据训练,并且都是包含大量参数的关系学习模型,通常需要多种外部上下文信息的支撑,这对训练数据和上下文信息的收集数量与质量提出了较高的要求。但是实际应用场景中,能够被公开获取的数据往往呈现稀疏特征,有学习价值的关系信息较少,研究如何在稀疏数据上对实体间关系进行推理,提高社交网络用户关系、金融机构风险关系和医疗知识关系等关系推理任务的准确性和完备性;并能作为一种提高数据挖掘质量的手段,为基于实体关系的进一步推荐、预测和查询提供数据基础。

3、鉴于此,克服该现有技术所存在的缺陷是本
亟待解决的问题。


技术实现思路

1、本专利技术要解决的技术问题是如何改善现有稀疏特征的自然语料中推理关系获取低效的问题。

2、第一方面,提供一种基于规则融合编码的稀疏关系推理方法,包括:

3、根据自然语料获取头实体、实体关系和尾实体;

4、根据获取的所述头实体、实体关系和尾实体,计算各个实体的实体共现集合的贡献度,根据所述贡献度获取头实体的频繁规则集和尾实体的频繁规则集,根据所述头实体的频繁规则集对所述头实体进行编码得到头实体编码信息,根据所述尾实体的频繁规则集对所述尾实体进行编码得到尾实体编码信息;

5、获取头实体相对于实体关系的第一权重,获取尾实体相对于实体关系的第二权重;

6、根据所述第一权重、第二权重、头实体编码信息和尾实体编码信息对所述实体关系进行编码得到关系编码信息;

7、对所述头实体编码信息、尾实体编码信息和关系编码信息进行训练获取关系推理模型;

8、将需要进行关系推理的其他头实体和其他尾实体输入至所述关系推理模型,获取其他头实体和其他尾实体之间的实体关系。

9、优选的,所述根据自然语料获取头实体、实体关系和尾实体,具体包括:

10、通过人工方式和/或标注学习方式对所述自然预料中的每个语句进行识别抽取,得到所述头实体、实体关系和尾实体,根据同一个语句中所述头实体、实体关系和尾实体得到知识三元组(eh,rr,et);

11、其中,eh为头实体,rr为实体关系,et为尾实体。

12、优选的,将位于同一语句的中所有实体相互作为共现实体,所述计算各个实体的实体共现集合的贡献度,获取头实体的频繁规则集和尾实体的频繁规则集,具体包括:

13、根据获取到的所有知识三元组,获取每个实体的共现实体,得到所述共现实体集合;

14、对于每个实体e*,获取实体e*在所述自然语料中出现的所有语句作为共现自然句;

15、对于实体e*的每个共现实体e*,获取所述共现实体e’与实体e*处于同一语句的次数,作为所述共现实体e’的出现次数,计算所述共现实体e’的出现次数占实体e*的共现自然句的条数的比例,将所述比例作为所述共现实体e’的候选度;

16、对于实体e*的每个共现实体e’,获取共现实体e’和实体e*的共现实体集合中的其他共现实体互为共现实体的次数,计算所述互为共现实体的次数占实体e*的共现自然句的条数的比例,将所述比例作为所述共现实体e’的耦合度;

17、将所述共现实体e’的候选度和所述共现实体e’的耦合度相加,得到所述共现实体e’的贡献度,将实体e*的共现实体集合中最小贡献度的共现实体淘汰,剩余的共现实体均作为频繁共现实体,所有所述频繁共现实体的集合作为实体e*的频繁规则集;

18、当实体e*的所有共现实体的贡献度相同时,则将实体e*的所有共现实体作为实体e*的频繁规则集;

19、当实体e*的共现实体数量为0时,则所述实体e*的频繁规则集为空集。

20、优选的,所述根据所述头实体的频繁规则集对所述头实体进行编码得到头实体编码信息,根据所述尾实体的频繁规则集对所述尾实体进行编码得到尾实体编码信息,具体包括:

21、对每个实体进行初始编码得到初始化编码信息;

22、根据每个实体的初始化编码信息,和自身的频繁规则集中所有频繁共现实体的初始化编码信息进行编码;

23、其中,头实体eh的编码公式如下:

24、

25、其中,为头实体的初始编码信息,k为频繁规则集中实体的数量,为头实体eh的每个频繁共现实体的初始编码信息,q为遍历大于0且小于等于k的整数;为头实体eh的编码信息;

26、其中,尾实体et的编码公式如下:

27、

28、其中,为尾实体的初始编码信息,k为频繁规则集中实体的数量,为尾实体et每个频繁共现实体的初始编码信息,q为遍历大于0且小于等于k的整数;为尾实体et的编码信息。

29、优选的,所述对每个实体进行初始编码得到初始化编码信息,具体包括:

30、提取将每个实体中的词汇,将所述词汇通过向量模型转变为向量形式作为所述初始编码信息;

31、其中,e1i、e2i、…emi为向量每个维度的数值,m为向量的维度。

32、优选的,所述获取头实体相对于实体关系的第一权重,获取尾实体相对于实体关系的第二权重,具体包括:

33、根据获取到的所有知识三元组,对于每一个实体关系,获取和实体关系处于同一知识三元组中的头实体的类别个数hs,以及第i个类别的头实体和实体关系处于同一知识三元组的次数|eh,i|,其中i=1,2,…hs,根据如下公式获取每个头实体的类别相对于实体关系的第一权重:

34、

35、其中,xhi为任意一个头实体的类别相对于实体关系的第一权重;

36、获取和实体关系处于同一知识三元组中的尾实体类别个数ts,以及第j个类别的尾实体和实体关系处于同一知识三元组的次数|et,j|,其中j=1,2,…,ts,根据如下公式获取每个尾实体的类别相对于实体关系的第二权重:

37、

38、其中,ytj为任意一个尾实体的类别相对于实体关系的第二权重。

39、优选的,所述根据所述第一权重、第二权重、头实体编码信息和尾实体编码信息对所述实体关系进行编码得到关系编码信息,具体包括:

40、根据如下公式对所述实体关系进行编码得到关系编码信息:

41、

42、其中,为所述关系编码信息,wrh和urt为训练投影参数。

43、优选的,所述对所述头实体编码信息、尾实体编码信息和关系编码信息进行训练获取关系推理模本文档来自技高网...

【技术保护点】

1.一种基于规则融合编码的稀疏关系推理方法,其特征在于,包括:

2.根据权利要求1所述的基于规则融合编码的稀疏关系推理方法,其特征在于,所述根据自然语料获取头实体、实体关系和尾实体,具体包括:

3.根据权利要求2所述的基于规则融合编码的稀疏关系推理方法,其特征在于,将位于同一语句的中所有实体相互作为共现实体,所述计算各个实体的实体共现集合的贡献度,获取头实体的频繁规则集和尾实体的频繁规则集,具体包括:

4.根据权利要求3所述的基于规则融合编码的稀疏关系推理方法,其特征在于,所述根据所述头实体的频繁规则集对所述头实体进行编码得到头实体编码信息,根据所述尾实体的频繁规则集对所述尾实体进行编码得到尾实体编码信息,具体包括:

5.根据权利要求4所述的基于规则融合编码的稀疏关系推理方法,其特征在于,所述对每个实体进行初始编码得到初始化编码信息,具体包括:

6.根据权利要求4所述的基于规则融合编码的稀疏关系推理方法,其特征在于,所述获取头实体相对于实体关系的第一权重,获取尾实体相对于实体关系的第二权重,具体包括:

7.根据权利要求6所述的基于规则融合编码的稀疏关系推理方法,其特征在于,所述根据所述第一权重、第二权重、头实体编码信息和尾实体编码信息对所述实体关系进行编码得到关系编码信息,具体包括:

8.根据权利要求7所述的基于规则融合编码的稀疏关系推理方法,其特征在于,所述对所述头实体编码信息、尾实体编码信息和关系编码信息进行训练获取关系推理模型,具体包括:

9.根据权利要求1-8任一所述的基于规则融合编码的稀疏关系推理方法,其特征在于,所述将需要进行关系推理的其他头实体和其他尾实体输入至所述关系推理模型,获取其他头实体和其他尾实体之间的实体关系,具体包括:

10.一种基于规则融合编码的稀疏关系推理装置,其特征在于,包括至少一个处理器,以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述处理器执行,用于执行权利要求1至9中任一项所述的基于规则融合编码的稀疏关系推理方法。

...

【技术特征摘要】

1.一种基于规则融合编码的稀疏关系推理方法,其特征在于,包括:

2.根据权利要求1所述的基于规则融合编码的稀疏关系推理方法,其特征在于,所述根据自然语料获取头实体、实体关系和尾实体,具体包括:

3.根据权利要求2所述的基于规则融合编码的稀疏关系推理方法,其特征在于,将位于同一语句的中所有实体相互作为共现实体,所述计算各个实体的实体共现集合的贡献度,获取头实体的频繁规则集和尾实体的频繁规则集,具体包括:

4.根据权利要求3所述的基于规则融合编码的稀疏关系推理方法,其特征在于,所述根据所述头实体的频繁规则集对所述头实体进行编码得到头实体编码信息,根据所述尾实体的频繁规则集对所述尾实体进行编码得到尾实体编码信息,具体包括:

5.根据权利要求4所述的基于规则融合编码的稀疏关系推理方法,其特征在于,所述对每个实体进行初始编码得到初始化编码信息,具体包括:

6.根据权利要求4所述的基于规则融合编码的稀疏关系推理方法,其特征在于,所述获取头实体相对于实体关系的第一权重,...

【专利技术属性】
技术研发人员:饶子昀张毅王振杰高子文刘俊涛
申请(专利权)人:中国船舶集团有限公司第七〇九研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1