一种基于知识图谱的数据搜索方法技术

技术编号:39505084 阅读:9 留言:0更新日期:2023-11-24 11:36
本申请提供了一种基于知识图谱的数据搜索方法

【技术实现步骤摘要】
一种基于知识图谱的数据搜索方法、装置及电子设备


[0001]本申请涉及数据搜索
,尤其涉及一种基于知识图谱的数据搜索方法

装置及电子设备


技术介绍

[0002]目前,常见的搜索是基于标题关键词的匹配进行,属于基于关键词搜索的传统搜索方式,即,从文章标题的关键词中找出与查询关键词匹配的结果,再将查询结果按照文章发布时间进行排序返回给用户,整个过程,搜索引擎并不需要理解用户输入的查询是什么,系统也不具备推理能力,因此,返回的结果并不一定是用户想要的,精准性稍显不足

[0003]其次,通常用户只关注搜索结果页的前几项,而目前技术中基本上都是按文章发布时间对搜索结果进行排序显示,无法向用户推送与其查询文本密切相关的文章


技术实现思路

[0004]有鉴于此,本申请的目的在于至少提供一种基于知识图谱的数据搜索方法

装置及电子设备,利用召回

排序模型对搜索结果进行排序,可以反馈给用户最有关联的结果,大大提升搜索精度

[0005]本申请主要包括以下几个方面:
[0006]第一方面,本申请实施例提供一种基于知识图谱的数据搜索方法,方法包括:对输入文本分别进行分词处理

词性标注和句法分析,得到多个查询词语

每个查询词语对应的词性以及每个查询词语对应的句法关系;利用
TF

IDF
算法对多个查询词语进行重要性分析,确定每个查询词语在输入文本中的重要性权重;根据每个查询词语对应的重要性权重

词性以及句法关系,在预设知识图谱中进行搜索推理,召回与输入文本对应的多篇目标文章;利用预先训练好的召回

排序模型对多篇目标文章进行排序处理,以得到排序后的多篇目标文章

[0007]在一种可能的实施方式中,通过以下方式在预设知识图谱中召回与输入文本对应的多篇目标文章:针对每个查询词语,执行以下处理:根据该查询词语对应的词性,确定该查询词语对应的词性权重;根据该查询词语对应的句法关系,确定该查询词语对应的句法权重;对该查询词语对应的重要性权重

词性权重以及句法权重进行加权计算,确定该查询词语对应的重要性指数;根据每个查询词语对应的重要性指数,对多个查询词语进行重要性排序,确定多个查询词语之间的重要性排序结果;按照重要性排序结果所指示的每个查询词语的排序顺序,在预设知识图谱中进行搜索推理,先后召回与每个查询词语对应的多篇目标文章

[0008]在一种可能的实施方式中,词性权重包括第一词性权重和第二词性权重,其中,通过以下方式确定每个查询词语对应的词性权重:分别确定该查询词语所属的关键词性和次关键词性;根据该查询词语所属的关键词性以及多个关键词性与多个第一词性权重词之间的映射关系,确定该查询词语对应的第一词性权重;根据该查询词语所属的次关键词性以
及多个次关键词性与多个第二词性权重词之间的映射关系,确定该查询词语对应的第二词性权重

[0009]在一种可能的实施方式中,句法权重包括第一句法权重和第二句法权重,其中,通过以下方式确定每个查询词语对应的句法权重:分别确定该查询词语所属的关键依存句法关系和次关键依存句法关系;根据该查询词语所属的关键依存句法关系以及多个关键依存句法关系与多个第一句法权重词之间的映射关系,确定该查询词语对应的第一句法权重;根据该查询词语所属的次关键依存句法关系以及多个次关键依存句法关系与多个第二句法权重词之间的映射关系,确定该查询词语对应的第二句法权重

[0010]在一种可能的实施方式中,通过以下方式召回每个查询词语对应的多篇目标文章:根据该查询词语对应的词性和句法关系,在预设知识图谱中进行搜索推理,确定该查询词语在预设知识图谱中对应的知识搜索结果,知识搜索结果包括实体

实体属性和
/
或实体关系;获取用于创建预设知识图谱的多篇文章以及每篇文章对应的文章标签,文章标签指示了从文章中抽取出的实体

实体属性和
/
或实体关系;针对每篇文章,将该文章对应的文章标签与搜索结果进行匹配,若匹配结果一致,则将该文章确定为该查询词语对应的目标文章并召回

[0011]在一种可能的实施方式中,利用预先训练好的召回

排序模型对多篇目标文章进行排序处理,以得到排序后的多篇目标文章的步骤包括:针对召回的每篇目标文章,提取该目标文章所包含的文本特征,文本特征包括文章所包含的目标词语数量

与目标词语相关的属性数量

目标词语相关的行业类型数量

文章自身包含的实体数量

文章自身包含的实体属性数量和文章自身包含的行业类型数量;基于文本特征和每个目标词语对应的重要性权重,使用预先训练好的广义线性模型对召回的多篇目标文章进行排序,得到每篇目标文章对应的排序得分;根据每篇目标文章对应的排序得分,对多篇目标文章进行排序处理,以得到排序后的多篇目标文章

[0012]在一种可能的实施方式中,通过以下方式确定多个查询词语:利用预设转化策略对输入文本进行文本预处理,得到预处理后的输入文本,预设转化策略包括大小写转化

全半角转换

长度截断和简繁体转化;基于
PyLTP
模型对预处理后的输入文本进行分词处理,得到多个候选词语;利用
N

Gram
语言模型对多个候选词语进行纠错改写,以得到多个查询词语

[0013]第二方面,本申请实施例还提供一种基于知识图谱的数据搜索装置,装置包括:处理模块,用于对输入文本分别进行分词处理

词性标注和句法分析,得到多个查询词语

每个查询词语对应的词性以及每个查询词语对应的句法关系;重要性分析模块,用于利用
TF

IDF
算法对多个查询词语进行重要性分析,确定每个查询词语在输入文本中的重要性权重;搜索推理模块,用于根据每个查询词语对应的重要性权重

词性以及句法关系,在预设知识图谱中进行搜索推理,召回与输入文本对应的多篇目标文章;排序模块,用于利用预先训练好的召回

排序模型对多篇目标文章进行排序处理,以得到排序后的多篇目标文章

[0014]第三方面,本申请实施例还提供一种电子设备,包括:处理器

存储器和总线,存储器存储有处理器可执行的机器可读指令,当电子设备运行时,处理器与存储器之间通过总线进行通信,机器可读指令被处理器运行时执行上述第一方面或第一方面中任一种可能的实施方式中提供的基于知识图谱的数据搜索方法的步骤

[0015]第四方面,本本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于知识图谱的数据搜索方法,其特征在于,所述方法包括:对输入文本分别进行分词处理

词性标注和句法分析,得到多个查询词语

每个查询词语对应的词性以及每个查询词语对应的句法关系;利用
TF

IDF
算法对所述多个查询词语进行重要性分析,确定每个查询词语在所述输入文本中的重要性权重;根据每个查询词语对应的重要性权重

词性以及句法关系,在预设知识图谱中进行搜索推理,召回与所述输入文本对应的多篇目标文章;利用预先训练好的召回

排序模型对所述多篇目标文章进行排序处理,以得到排序后的多篇目标文章
。2.
根据权利要求1所述的方法,其特征在于,通过以下方式在所述预设知识图谱中召回与所述输入文本对应的多篇目标文章:针对每个查询词语,执行以下处理:根据该查询词语对应的词性,确定该查询词语对应的词性权重;根据该查询词语对应的句法关系,确定该查询词语对应的句法权重;对该查询词语对应的重要性权重

词性权重以及句法权重进行加权计算,确定该查询词语对应的重要性指数;根据每个查询词语对应的重要性指数,对所述多个查询词语进行重要性排序,确定多个查询词语之间的重要性排序结果;按照所述重要性排序结果所指示的每个查询词语的排序顺序,在预设知识图谱中进行搜索推理,先后召回与每个查询词语对应的多篇目标文章
。3.
根据权利要求2所述的方法,其特征在于,所述词性权重包括第一词性权重和第二词性权重,其中,通过以下方式确定每个查询词语对应的词性权重:分别确定该查询词语所属的关键词性和次关键词性;根据该查询词语所属的关键词性以及多个关键词性与多个第一词性权重词之间的映射关系,确定该查询词语对应的第一词性权重;根据该查询词语所属的次关键词性以及多个次关键词性与多个第二词性权重词之间的映射关系,确定该查询词语对应的第二词性权重
。4.
根据权利要求3所述的方法,其特征在于,所述句法权重包括第一句法权重和第二句法权重,其中,通过以下方式确定每个查询词语对应的句法权重:分别确定该查询词语所属的关键依存句法关系和次关键依存句法关系;根据该查询词语所属的关键依存句法关系以及多个关键依存句法关系与多个第一句法权重词之间的映射关系,确定该查询词语对应的第一句法权重;根据该查询词语所属的次关键依存句法关系以及多个次关键依存句法关系与多个第二句法权重词之间的映射关系,确定该查询词语对应的第二句法权重
。5.
根据权利要求2所述的方法,其特征在于,通过以下方式召回每个查询词语对应的多篇目标文章:根据该查询词语对应的词性和句法关系,在预设知识图谱中进行搜索推理,确定该查
询词语在预设知识图谱中对应的知识搜索结果,所述知识搜索结果包括实体

实体属性和
/
或实体关系;获取用于创建所述预设知识图谱的多篇文章以及每篇文章对应的文章标签,所述文章标签指示了从文章中抽取出的实体

实体属性和
...

【专利技术属性】
技术研发人员:张冉韩禹萌
申请(专利权)人:渤海银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1