System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 知识图谱增强网络嵌入的作者名称消歧方法和装置制造方法及图纸_技高网
当前位置: 首页 > 专利查询>安徽大学专利>正文

知识图谱增强网络嵌入的作者名称消歧方法和装置制造方法及图纸

技术编号:40376323 阅读:20 留言:0更新日期:2024-02-20 22:16
本申请提出了一种知识图谱增强网络嵌入的作者名称消歧方法和装置,涉及实体消歧技术领域,其中,该方法包括:获取作者名称消歧数据集;基于作者名称消歧数据集构建知识图谱,并利用PairRE模型得到知识图谱表征;基于作者名称消歧数据集构建异构信息网络,并基于知识图谱得到的节点嵌入指导异构信息网络进行随机漫步,得到节点表征;将知识图谱表征和节点表征融合,并对融合后的表征进行聚类,得到作者名称消歧结果。采用上述方案的本申请实现了作者名称的准确消歧。

【技术实现步骤摘要】

本申请涉及实体消歧,尤其涉及知识图谱增强网络嵌入的作者名称消歧方法和装置


技术介绍

1、目前一种被广泛使用的有效作者名称消歧方法是通过多种特征学习出版物表征,然后测量出版物之间的相似性并识别它们是否属于同一作者,该方法存在以下缺点:

2、对每种类型的特征关系构建同构关系网络,分别学习出版物表征,忽略了出版物之间的异构关系;

3、常规异构网络区分不同类型的特征关系需要预先设定多个元路径,并逐个测试多个元路径的结果,需要高昂的时间成本。并且,这些作者名称消歧方法只是单纯的将特征的关系信息表示为网络上的边,对于网络中实体和关系整体的考虑仍然不足。


技术实现思路

1、本申请旨在至少在一定程度上解决相关技术中的技术问题之一。

2、为此,本申请的第一个目的在于提出一种知识图谱增强网络嵌入的作者名称消歧方法,解决了现有方法时间成本高、考虑因素不全面的技术问题,实现了作者名称的准确消歧。

3、本申请的第二个目的在于提出一种知识图谱增强网络嵌入的作者名称消歧装置。

4、为达上述目的,本申请第一方面实施例提出了一种知识图谱增强网络嵌入的作者名称消歧方法,包括获取作者名称消歧数据集;基于作者名称消歧数据集构建知识图谱,并利用pairre模型得到知识图谱表征;基于作者名称消歧数据集构建异构信息网络,并基于知识图谱得到的节点嵌入指导异构信息网络进行随机漫步,得到节点表征;将知识图谱表征和节点表征融合,并对融合后的表征进行聚类,得到作者名称消歧结果

5、本申请实施例的知识图谱增强网络嵌入的作者名称消歧方法,通过构建学术知识图谱,利用pairre模型得到知识图谱表征,通过构建异构信息网络,利用基于知识图谱节点嵌入的随机漫步策略得到节点表征,通过融合论文表征、聚类并得到消歧结果,本申请考虑了出版物之间的异构信息,针对异构信息网络环境下的作者名称消歧问题进行了特殊处理,有效保证了作者名称的准确消歧。

6、可选地,在本申请的一个实施例中,作者名称消歧数据集包括作者、出版物和出版机构,在获取作者名称消歧数据集之后,还包括:

7、对作者名称消歧数据集中的数据进行清洗,去除数据的噪声,得到清洗后的数据。

8、可选地,在本申请的一个实施例中,基于作者名称消歧数据集构建知识图谱,包括:

9、通过ocdm将作者名称消歧数据集中包含的作者、出版物和出版机构作为实体进行建模,得到知识图谱三元组数据集作为知识图谱。

10、可选地,在本申请的一个实施例中,异构信息网络的实体包括论文、作者、出版物和出版机构,实体之间的关系特征包括论文和作者之间的关系、论文和出版物之间的关系,以及作者与出版机构之间的关系。

11、可选地,在本申请的一个实施例中,基于知识图谱得到的节点嵌入指导异构信息网络进行随机漫步,得到节点表征,包括:

12、使用基于知识图谱节点嵌入的随机漫步策略对异构信息网络进行节点采样,得到异构信息网络的节点序列,其中,基于知识图谱节点嵌入的随机漫步策略包括通过stay策略控制随机游走停留的概率,通过jump策略选择随机游走下一步跳转的目标;

13、将节点序列输入skip-gram模型中训练节点向量,得到节点表征。

14、可选地,在本申请的一个实施例中,stay策略为根据当前节点的连续停留次数,动态调整随机游走停留的概率,其中,当前节点的停留概率表示为:

15、

16、其中,为当前节点的停留概率,表示连接到当前节点的齐次边集合,表示当前节点,表示初始停留概率,为当前节点所在同一域中连续访问的节点数;

17、jump策略为计算节点的知识图谱嵌入结果之间的相似性,并将相似性最高的邻居节点作为下一步跳转的目标;

18、邻居节点的相似性表示为:

19、

20、其中,为当前节点,为当前节点的邻居节点。

21、为达上述目的,本申请第二方面实施例提出了一种知识图谱增强网络嵌入的作者名称消歧装置,包括数据获取模块、第一表征获取模块、第二表征获取模块、消歧模块,其中,

22、数据获取模块,用于获取作者名称消歧数据集;

23、第一表征获取模块,用于基于作者名称消歧数据集构建知识图谱,并利用pairre模型得到知识图谱表征;

24、第二表征获取模块,用于基于作者名称消歧数据集构建异构信息网络,并基于知识图谱得到的节点嵌入指导异构信息网络进行随机漫步,得到节点表征;

25、消歧模块,用于将知识图谱表征和节点表征融合,并对融合后的表征进行聚类,得到作者名称消歧结果。

26、可选地,在本申请的一个实施例中,作者名称消歧数据集包括作者、出版物和出版机构,装置还包括数据清洗模块,用于在获取作者名称消歧数据集之后,对作者名称消歧数据集中的数据进行清洗,去除数据的噪声,得到清洗后的数据。

27、可选地,在本申请的一个实施例中,基于作者名称消歧数据集构建知识图谱,包括:

28、通过ocdm将作者名称消歧数据集中包含的作者、出版物和出版机构作为实体进行建模,得到知识图谱三元组数据集作为知识图谱。

29、可选地,在本申请的一个实施例中,异构信息网络的实体包括论文、作者、出版物和出版机构,实体之间的关系特征包括论文和作者之间的关系、论文和出版物之间的关系,以及作者与出版机构之间的关系。

30、本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。

本文档来自技高网...

【技术保护点】

1.一种知识图谱增强网络嵌入的作者名称消歧方法,其特征在于,包括以下步骤:

2.如权利要求1所述的知识图谱增强网络嵌入的作者名称消歧方法,其特征在于,所述作者名称消歧数据集包括作者、出版物和出版机构,在获取作者名称消歧数据集之后,还包括:

3.如权利要求2所述的知识图谱增强网络嵌入的作者名称消歧方法,其特征在于,所述基于所述作者名称消歧数据集构建知识图谱,包括:

4.如权利要求2所述的知识图谱增强网络嵌入的作者名称消歧方法,其特征在于,所述异构信息网络的实体包括论文、作者、出版物和出版机构,所述实体之间的关系特征包括论文和作者之间的关系、论文和出版物之间的关系,以及作者与出版机构之间的关系。

5.如权利要求4所述的知识图谱增强网络嵌入的作者名称消歧方法,其特征在于,所述基于知识图谱得到的节点嵌入指导所述异构信息网络进行随机漫步,得到节点表征,包括:

6.如权利要求5所述的知识图谱增强网络嵌入的作者名称消歧方法,其特征在于,所述Stay策略为根据当前节点的连续停留次数,动态调整随机游走停留的概率,其中,当前节点的停留概率表示为:

7.一种知识图谱增强网络嵌入的作者名称消歧装置,其特征在于,包括数据获取模块、第一表征获取模块、第二表征获取模块、消歧模块,其中,

8.如权利要求7所述的知识图谱增强网络嵌入的作者名称消歧装置,其特征在于,所述作者名称消歧数据集包括作者、出版物和出版机构,所述装置还包括数据清洗模块,用于在获取作者名称消歧数据集之后,对所述作者名称消歧数据集中的数据进行清洗,去除数据的噪声,得到清洗后的数据。

9.如权利要求8所述的知识图谱增强网络嵌入的作者名称消歧装置,其特征在于,所述基于所述作者名称消歧数据集构建知识图谱,包括:

10.如权利要求8所述的知识图谱增强网络嵌入的作者名称消歧装置,其特征在于,所述异构信息网络的实体包括论文、作者、出版物和出版机构,所述实体之间的关系特征包括论文和作者之间的关系、论文和出版物之间的关系,以及作者与出版机构之间的关系。

...

【技术特征摘要】

1.一种知识图谱增强网络嵌入的作者名称消歧方法,其特征在于,包括以下步骤:

2.如权利要求1所述的知识图谱增强网络嵌入的作者名称消歧方法,其特征在于,所述作者名称消歧数据集包括作者、出版物和出版机构,在获取作者名称消歧数据集之后,还包括:

3.如权利要求2所述的知识图谱增强网络嵌入的作者名称消歧方法,其特征在于,所述基于所述作者名称消歧数据集构建知识图谱,包括:

4.如权利要求2所述的知识图谱增强网络嵌入的作者名称消歧方法,其特征在于,所述异构信息网络的实体包括论文、作者、出版物和出版机构,所述实体之间的关系特征包括论文和作者之间的关系、论文和出版物之间的关系,以及作者与出版机构之间的关系。

5.如权利要求4所述的知识图谱增强网络嵌入的作者名称消歧方法,其特征在于,所述基于知识图谱得到的节点嵌入指导所述异构信息网络进行随机漫步,得到节点表征,包括:

6.如权利要求5所述的知识图谱增强网络嵌入的作者名称消歧方法,其特征在于,所述sta...

【专利技术属性】
技术研发人员:赵姝章丽陈洁段震程远方李宇张燕平朱金良
申请(专利权)人:安徽大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1