一种基于知识图谱的跨环境元数据匹配方法及系统技术方案

技术编号:36560819 阅读:13 留言:0更新日期:2023-02-04 17:16
本发明专利技术公开一种基于知识图谱的跨环境元数据匹配方法,利用知识图谱在数据建模方面的灵活性,使用知识图谱嵌入模型将查询和文章表示为同一向量空间中的向量,借助于依赖于知识图谱的语义和实体匹配,在搜索文献中使用知识图嵌入极大地提高返回文档的相关性;同时本发明专利技术公开基于知识图谱的跨环境元数据匹配方法及系统,通过元数据采集系统,元数据处理系统和查询处理系统,收集和整合元数据,将元数据的关系数据库转换为互连实体的知识图谱,并添加特征向量提取、文档相似度计算等操作,可以方便计算的同时保留知识图谱中的结构信息,提高查询结果的准确性和完整性,并保证系统的执行效率。行效率。行效率。

【技术实现步骤摘要】
一种基于知识图谱的跨环境元数据匹配方法及系统


[0001]本专利技术涉及数据管理
,具体涉及一种基于知识图谱的跨环境元数据匹配方法及系统。

技术介绍

[0002]对于许多引文数据库(如PubMed),包含超过数千万篇生物学、医学等领域的文章。每天有超过数百万的用户使用引文数据库,为研究人员和学生提供服务。值得一提的是,PubMed是引文数据库,而不是全文文章数据库,因为在PubMed中索引的文章中约有三分之二不提供对全文的访问。当出版商提供免费全文或以开放获取形式发布时,全文将在PubMed Central中被索引。因此,PubMed搜索引擎在提供搜索体验时依赖元数据和引文,而不是解析全文文章。文章的元数据在搜索过程中使用的字段中进行索引和解析。元数据字段包括标题、摘要、作者、期刊名称、出版日期、提交日期、相关术语、引文和参考信息、资金资助、项目等信息。
[0003]引文数据库通常使用一种依赖于模糊字符串匹配的算法,来将查询与相关引文进行匹配。例如,当用户在搜索框中输入作者姓名后跟期刊名称时,将显示该作者在该期刊中发表的所有文章。此外,使用自动术语映射系统也可进行搜索。自动术语映射系统扩展了输入查询,并查找输入查询所期望的字段。使用相关术语、关键字和其他可被视为索引的元数据将扩展查询与最相关的文档进行匹配。然后,使用TF

IDF检索最相关的文章,并根据日期或使用标题或作者姓名的字母顺序排列。
[0004]最近,PubMed提出了相关性排名算法BestMatch。该算法依赖于一种机器学习模型,该模型使用过去几年从PubMed上用户搜索日志中提取的特征进行训练。该系统已被证明优于基于TF

IDF的查询搜索系统。但是,BestMatch不考虑系统已经训练过且含义不明的用户查询日志。此外,尽管使用α和β测试方法对系统进行了彻底的评估,并与真实用户一起评估排名质量,但该算法并没有为使用语义模型理解查询意图提供解决方案。例如,用户可以在PubMed搜索框中输入单词“cancer”,“cancer”可能意味着多个意思:(1)他们可能希望在期刊上发表一篇名为“Nature:cancer”的文章;(2)他们可能想知道在癌症领域工作和发表文章的作者;(3)他们可能想要所有提及癌症或癌症领域研究的相关文章;(4)他们可能在寻找带有标题或作者姓名、期刊和年份的特定引文。
[0005]PubMed和Google等搜索引擎和信息检索系统依靠客观指标和算法对搜索结果进行排名,但搜索结果的排名不一定反映用户查询的意思。它们仅反映基于输入查询文本的最客观的相关性,这是通过分析文档语料库中输入查询中字符串的频率来完成的。将语义结合到搜索算法和信息检索系统中,尤其是在生物医学文献搜索中,对于解决歧义、理解查询意图和帮助真正的知识发现起到至关重要的作用。
[0006]近年来,随着Web 2.0信息革命,语义Web技术激增。语义网络技术旨在通过机器创建可理解和可读的网络。引入图模型,使用资源描述符框架等标准从语义上表示网页中的知识。知识图谱作为一种数据模型诞生,用于在语义上存储信息和数据,知识图谱也已扩展
为用于数据持久性的图数据库,与关系数据模型相比,它可以允许更灵活地表示数据和关系。
[0007]2012年出现了“知识图谱”来描述一种新的Google搜索技术。该术语已扩展为描述使用图结构表示的任何形式的知识库。知识图谱在三元组中表示结构化和非结构化知识的数据模型,三元组表示两个对象之间的语义关系。知识图谱可以表示现实世界实体和关系的相互关联以及语义连接的描述。通过从非结构化文本中提取实体和关系,知识图谱的构建可以从手动到自动管理。知识图谱使用资源描述符框架(Resources Descriptors Framework,RDF),这是一种语义表示语言,具有由万维网联盟定义的图数据模型,关系定义在两个连接的实体或节点之间。RDF标准要求使用唯一资源标识符格式存储节点名称。
[0008]由于知识图谱在数据建模方面的灵活性,在搜索引擎和推荐系统中非常高效。一些工作对在线搜索引擎中的文章元数据使用图表示学习,使用知识图谱嵌入模型将查询和文章表示为同一向量空间中的向量。在搜索学术文献中使用知识图嵌入可以极大地提高查询结果的相关性,在此过程中依赖于语义和实体匹配。
[0009]综上所述,现有算法依赖于从文章中提取特征并将先前的用户搜索日志包含到相关性排名预测模型中;然后,该模型会为每个用户找到最相关的个性化结果,但它不考虑任何带有歧义的语义。大多数元数据匹配与检索方法能够完成基本的用户需求,然而系统不能感知用户的意图,无法精准区分查询中的带有歧义的语义。

技术实现思路

[0010]本专利技术的目的在于,提供一种基于知识图谱的跨环境元数据匹配方法,可以有效地区分同一个单词在不同环境下的语义,同时本专利技术公开基于知识图谱的跨环境元数据匹配方法及系统,在有效区分单词在不同环境下的语义的同时,方便计算并保留知识图谱中的结构信息,提高搜索引擎查询和系统的执行效率。
[0011]为实现上述技术目的,达到上述技术效果,本专利技术是通过以下技术方案实现:
[0012]一种基于知识图谱的跨环境元数据匹配方法,包括以下步骤:
[0013]S1、准备元数据数据库;
[0014]S2、从文档语料库中提取词汇表,并为每个术语创建索引;
[0015]S3、将元数据的关系数据库转换为互连实体的知识图谱;
[0016]S4、为知识图谱中的每个节点或实体学习一组特征向量;
[0017]S5、使用平均池化操作,对连接到一阶邻域中的每篇文章节点的所有类型节点的嵌入向量进行平均;
[0018]S6、接受用户查询并解析;
[0019]S7、扩展提取的关键字列表,并将索引与关键字列表进行匹配;
[0020]S8、查找知识图谱中与匹配结果返回的标识符具有相同标识符的所有节点;
[0021]S9、计算用户输入和查询结果的余弦距离并输出排名。
[0022]进一步的,所述步骤S1具体包括:
[0023]S101、从引文库中的文章摘要提取实体,并消除作者姓名歧义,然后收集作者隶属机构和教育背景来构建引文作者关系知识图谱;
[0024]S102、根据步骤S101,为消除歧义的作者分配唯一标识符AID;
[0025]S103、根据步骤S102,选择文章子集,使用图卷积神经网络自适应地提取一阶引文网络,具体如下面公式所示:
[0026][0027]其中,设中心节点为i,h
il
表示节点i在第l层的特征表达,c
ij
为归一化因子,N
i
为节点i的邻居,R
j
为结点j的类型嵌入,w
Rj
表示类型为R
j
节点的变换权重参数,σ表示sigmoid激活函数。
[0028]进一步的,所述步骤S2中提取词汇表并创建索引具本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于知识图谱的跨环境元数据匹配方法,其特征在于,包括以下步骤:S1、准备元数据数据库;S2、从文档语料库中提取词汇表,并为每个词汇创建索引;S3、将元数据的关系数据库转换为互连实体的知识图谱;S4、为知识图谱中的每个节点或实体学习一组特征向量;S5、使用池化操作,对连接到一阶邻域中的每个文章节点对应的类型节点的嵌入向量进行平均池化操作;S6、接受用户查询并解析;S7、扩展提取的关键字列表,并将索引与关键字列表进行匹配;S8、查找知识图谱中与匹配结果返回的标识符具有相同标识符的节点;S9、计算查询向量和文章向量的余弦距离并输出排名。2.如权利要求1所述的基于知识图谱的跨环境元数据匹配方法,其特征在于,所述步骤S1具体包括:S101、从引文库中的文章摘要提取实体,并消除作者姓名歧义,然后收集作者隶属机构和教育背景来构建知识图谱;S102、根据步骤S101,为消除歧义的作者分配唯一标识符AID;S103、根据步骤S102,选择文章子集,使用图卷积神经网络自适应地提取一阶引文网络,具体如下面公式所示:其中,设中心节点为i,h
il
表示节点i在第l层的特征表达,c
ij
为归一化因子,N
i
为节点i的邻居,R
j
为结点j的类型嵌入,w
Rj
表示类型为R
j
节点的变换权重参数,σ表示sigmoid激活函数。3.如权利要求1所述的基于知识图谱的跨环境元数据匹配方法,其特征在于,所述步骤S2具体包括:S201、使用预训练语言模型提取实体的名称;S202、根据步骤S201,除了作为知识图谱的一部分外,为实体名称构建索引,索引将用于匹配输入的用户查询并创建查询向量;S203、根据步骤S202,每篇文章p∈P(P为所有文章)将包含一组实体提及M(Entity Mentions);每一个提及M'都是一组提及的一部分M'∈M,这些提及用于区分每个单独的实体b∈B,用表示。4.如权利要求1所述的基于知识图谱的跨环境元数据匹配方法,其特征在于,所述步骤S3具体包括:S301、提取每一篇文章的所有作者姓名、题目、摘要、关键字、正文和参考文献以及相关术语;S302、使用代表每个实体的唯一标识符创建知识图谱;S303、每篇文章和相关的元数据将被表示为一个迷你知识图谱;对于每篇文章,使用唯一标识符创建迷你知识图谱;
S304、步骤S103的引文网络提供使用关系“isCitedBy/cites”链接大多数文章所需的边集;S305、将知识图谱在语义上进行链接,得到一个语义关联的网络KG

Net。5.如权利要求1所述的基于知识图谱的跨环境元数据匹配方法,其特征在于,所述步骤S4具体包括:S401、使用Node2Vec提取知识图谱的嵌入表示,执行改良版的随机游走策略,包括参数p和q来控制采样策略,p参数控制游走重新访问节点的可能性,q参数决定搜索是局部约束还是全局约束;给定q>1和初始节点上的随机游走,随机游走对靠近初始节点的节点进行采样;而q<1时,随机游走从初始节点进一步采样;具体如下式所示:其中,参数p和q引导了随机游走,t和x表示节点,α
pq
(t,x)表示节点t到节点x的状态转移概率,d
tx
表示节点t和x之间...

【专利技术属性】
技术研发人员:闵圣捷饶定远方波唐雷
申请(专利权)人:中电智元数据科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1