【技术实现步骤摘要】
基于小样本知识图谱补全的信息检索优化方法及其系统
[0001]本专利技术属于信息检索
,涉及一种基于小样本知识图谱补全的信息检索优化方法及其系统。
技术介绍
[0002]在大数据环境和互联网的迅速发展下,人们对信息搜索的依赖变得越来越强。目前,基于关键词的全文搜索已经难以满足人们的搜索需求。在这种情况下,人们提出了一种基于知识图谱的信息检索方法。通过一种自监督的开放式中文关系抽取方法,从互联网上的大规模非结构化数据中提取知识图谱的知识,并基于相关领域的知识库构建知识图谱。基于知识图谱,通过计算语义相似性进行信息检索。使用这种技术进行信息检索,检索结果的效率和准确性将大大提高,它在信息检索和智能推荐领域具有很好的应用价值。
[0003]然而,在实际应用中,知识图谱往往面临着数据不完整的问题。针对这一问题,知识图谱补全是一种关键技术。而在小样本环境下,知识图谱补全显得尤为重要。通过使用少量的样本数据,利用先进的机器学习方法,例如元学习,可以学习到实体和关系的表示,从而进行知识图谱的补全。知识图谱补全与信息检索的结合 ...
【技术保护点】
【技术特征摘要】
1.基于小样本知识图谱补全的信息检索优化方法,其特征在于包括以下步骤:步骤(1):首先获取信息检索相关的数据集,数据集包含多个小样本关系r;一个特定小样本关系r包括多个不同三元组,每个三元组由一个头实体、小样本关系r和一个尾实体构成;步骤(2):构造训练所需的支持集、候选集、正例查询集和负例查询集;步骤(3):构造小样本知识图谱补全模型GAKDN,并进行训练;所述小样本知识图谱补全模型GAKDN包括门控和角色感知邻居聚合器、实体对信息编码器、白适应匹配处理器;所述门控和角色感知邻居聚合器用于学习三元组中头尾实体的细粒度表示,包括注意力门控模块、注意力网络模块以及小样本关系角色识别模块;所述注意力门控模块,用于在表示小样本关系的过程中,对稀疏邻域进行编码的过程中引入的噪声进行过滤,是根据注意力权重过滤邻居的噪声信息,并自动捕获最有价值的邻居信息以学习实体表示;所述注意力网络模块,是利用小样本关系r的一半邻域的表示e
′
构建支持集的输入表征将其送入Bi
‑
LSTM,然后对每个时间步的邻域表示向量分别进行向前和向后的编码,并拼接得到上下文信息的全局特征,来学习小样本关系的通用表示;所述小样本关系角色识别模块,用于识别关系反映实体的某个角色,根据任务关系r
′
和邻居关系r
nbr
之间的相关性来区分头实体或尾实体的角色;所述实体对信息编码器用于学习实体对表示,包括实体对学习模块和知识蒸馏模块;所述实体对学习模块是基于增强实体f(e),并结合实体序列的相对位置信息输入到Transformer编码器,获得实体对的细粒度嵌入;所述知识蒸馏模块根据头尾实体和小样本关系间的结构信息,进一步提取实体对的细粒度信息;所述白适应匹配处理器将正例和负例查询集与支持集进行比较来进行预测;步骤(4):利用训练好的基于小样本学习的知识图谱补全模型GAKDN,实现小样本场景下的知识图谱的尾实体补全,以优化知识图谱的信息检索能力。2.根据权利要求1所述方法,其特征在于所述注意力门控模块具体是:首先给定一个小样本关系r对应的三元组实体对(h,t),其邻域为:实体e的第i个邻居关系和邻居实体表示如下:表示如下:其中W1是线性变换矩阵;U1是加权向量;c
i
是的聚合表示;d
i
是实体e的第i个邻居的重要性得分;为了获得每个邻居对应的注意力权重α
i
,应用softmax函数在d
i
上:使用门控值g决定...
【专利技术属性】
技术研发人员:周仁杰,马强,马浩男,杨畅,万健,蒋从锋,张伟,
申请(专利权)人:杭州电子科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。