一种基于知识图谱的跨环境元数据匹配方法及系统技术方案

技术编号：36560819 阅读：13 留言：0更新日期：2023-02-04 17:16

本发明专利技术公开一种基于知识图谱的跨环境元数据匹配方法，利用知识图谱在数据建模方面的灵活性，使用知识图谱嵌入模型将查询和文章表示为同一向量空间中的向量，借助于依赖于知识图谱的语义和实体匹配，在搜索文献中使用知识图嵌入极大地提高返回文档的相关性；同时本发明专利技术公开基于知识图谱的跨环境元数据匹配方法及系统，通过元数据采集系统，元数据处理系统和查询处理系统，收集和整合元数据，将元数据的关系数据库转换为互连实体的知识图谱，并添加特征向量提取、文档相似度计算等操作，可以方便计算的同时保留知识图谱中的结构信息，提高查询结果的准确性和完整性，并保证系统的执行效率。行效率。行效率。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于知识图谱的跨环境元数据匹配方法及系统

[0001]本专利技术涉及数据管理
，具体涉及一种基于知识图谱的跨环境元数据匹配方法及系统。

技术介绍

[0002]对于许多引文数据库(如PubMed)，包含超过数千万篇生物学、医学等领域的文章。每天有超过数百万的用户使用引文数据库，为研究人员和学生提供服务。值得一提的是，PubMed是引文数据库，而不是全文文章数据库，因为在PubMed中索引的文章中约有三分之二不提供对全文的访问。当出版商提供免费全文或以开放获取形式发布时，全文将在PubMed Central中被索引。因此，PubMed搜索引擎在提供搜索体验时依赖元数据和引文，而不是解析全文文章。文章的元数据在搜索过程中使用的字段中进行索引和解析。元数据字段包括标题、摘要、作者、期刊名称、出版日期、提交日期、相关术语、引文和参考信息、资金资助、项目等信息。
[0003]引文数据库通常使用一种依赖于模糊字符串匹配的算法，来将查询与相关引文进行匹配。例如，当用户在搜索框中输入作者姓名后跟期刊名称时，将显示该作者在该期刊中发表的所有文章。此外，使用自动术语映射系统也可进行搜索。自动术语映射系统扩展了输入查询，并查找输入查询所期望的字段。使用相关术语、关键字和其他可被视为索引的元数据将扩展查询与最相关的文档进行匹配。然后，使用TF
‑
IDF检索最相关的文章，并根据日期或使用标题或作者姓名的字母顺序排列。
[0004]最近，PubMed提出了相关性排名算法BestMatch。该算法依赖于一...

【技术保护点】

【技术特征摘要】
1.基于知识图谱的跨环境元数据匹配方法，其特征在于，包括以下步骤：S1、准备元数据数据库；S2、从文档语料库中提取词汇表，并为每个词汇创建索引；S3、将元数据的关系数据库转换为互连实体的知识图谱；S4、为知识图谱中的每个节点或实体学习一组特征向量；S5、使用池化操作，对连接到一阶邻域中的每个文章节点对应的类型节点的嵌入向量进行平均池化操作；S6、接受用户查询并解析；S7、扩展提取的关键字列表，并将索引与关键字列表进行匹配；S8、查找知识图谱中与匹配结果返回的标识符具有相同标识符的节点；S9、计算查询向量和文章向量的余弦距离并输出排名。2.如权利要求1所述的基于知识图谱的跨环境元数据匹配方法，其特征在于，所述步骤S1具体包括：S101、从引文库中的文章摘要提取实体，并消除作者姓名歧义，然后收集作者隶属机构和教育背景来构建知识图谱；S102、根据步骤S101，为消除歧义的作者分配唯一标识符AID；S103、根据步骤S102，选择文章子集，使用图卷积神经网络自适应地提取一阶引文网络，具体如下面公式所示：其中，设中心节点为i，h
il
表示节点i在第l层的特征表达，c
ij
为归一化因子，N
i
为节点i的邻居，R
j
为结点j的类型嵌入，w
Rj
表示类型为R
j
节点的变换权重参数，σ表示sigmoid激活函数。3.如权利要求1所述的基于知识图谱的跨环境元数据匹配方法，其特征在于，所述步骤S2具体包括：S201、使用预训练语言模型提取实体的名称；S202、根据步骤S201，除了作为知识图谱的一部分外，为实体名称构建索引，索引将用于匹配输入的用户查询并创建查询向量；S203、根据步骤S202，每篇文章p∈P(P为所有文章)将包含一组实体提及M(Entity Mentions)；每一个提及M'都是一组提及的一部分M'∈M，这些提及用于区分每个单独的实体b∈B，用表示。4.如权利要求1所述的基于知识图谱的跨环境元数据匹配方法，其特征在于，所述步骤S3具体包括：S301、提取每一篇文章的所有作者姓名、题目、摘要、关键字、正文和参考文献以及相关术语；S302、使用代表每个实体的唯一标识符创建知识图谱；S303、每篇文章和相关的元数据将被表示为一个迷你知识图谱；对于每篇文章，使用唯一标识符创建迷你知识图谱；
S304、步骤S103的引文网络提供使用关系“isCitedBy/cites”链接大多数文章所需的边集；S305、将知识图谱在语义上进行链接，得到一个语义关联的网络KG
‑
Net。5.如权利要求1所述的基于知识图谱的跨环境元数据匹配方法，其特征在于，所述步骤S4具体包括：S401、使用Node2Vec提取知识图谱的嵌入表示，执行改良版的随机游走策略，包括参数p和q来控制采样策略，p参数控制游走重新访问节点的可能性，q参数决定搜索是局部约束还是全局约束；给定q>1和初始节点上的随机游走，随机游走对靠近初始节点的节点进行采样；而q<1时，随机游走从初始节点进一步采样；具体如下式所示：其中，参数p和q引导了随机游走，t和x表示节点，α
pq
(t,x)表示节点t到节点x的状态转移概率，d
tx
表示节点t和x之间...

【专利技术属性】
技术研发人员：闵圣捷，饶定远，方波，唐雷，
申请(专利权)人：中电智元数据科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人