实体检索方法、存储介质和电子设备技术

技术编号:21399048 阅读:20 留言:0更新日期:2019-06-19 07:00
公开了一种实体检索方法、存储介质和电子设备。本发明专利技术实施例通过获取检索词对应的第一词向量,并遍历第二词向量集合和第三词向量集合,确定与所述第一词向量相似的多个第二词向量和第三词向量,其中,所述第二词向量集合包括预定的知识图谱中实体对应的词向量,所述第三词向量集合包括所述知识图谱中实体属性对应的词向量,从而根据所述第一词向量和预定的匹配模型获取所述相似的多个第二词向量和第三词向量的排序结果,进而根据所述排序结果确定所述检索词对应的实体。由此,可以提升信息检索的准确性。

【技术实现步骤摘要】
实体检索方法、存储介质和电子设备
本专利技术涉及信息处理
,具体涉及一种实体检索方法、存储介质和电子设备。
技术介绍
随着互联网技术的不断发展,通过网页查找信息已成为人们获取信息最常用的方式。目前,基于知识图谱的信息检索引擎得到了大力发展和普及,例如谷歌、百度等,均是基于知识图谱来对信息进行检索的。将知识图谱与信息检索进行结合能够快速获取更多的信息,是一种较高效的信息检索方法。现有技术通常通过采用将检索词与知识图谱中的实体及实体属性进行关键词匹配来获取需要查询的信息,但由于知识图谱中的实体和实体属性的数量较大,且实体和实体属性的概念会随着时间的发展产生变化,基于关键词匹配的信息检索方法准确性会逐渐降低。
技术实现思路
有鉴于此,本专利技术实施例提出一种实体检索方法、存储介质和电子设备,可以在不影响检索时间的情况下提升信息检索的准确性。根据本专利技术实施例的第一方面,提供一种实体检索方法,所述方法包括:获取检索词对应的第一词向量;遍历第二词向量集合和第三词向量集合,确定与所述第一词向量相似的多个第二词向量和第三词向量,其中,所述第二词向量集合包括预定的知识图谱中实体对应的词向量,所述第三词向量集合包括所述知识图谱中实体属性对应的词向量;根据所述第一词向量和预定的匹配模型获取所述相似的多个第二词向量和第三词向量的排序结果;以及根据所述排序结果确定所述检索词对应的实体。优选地,所述第一词向量、所述第二词向量和所述第三词向量通过词向量生成模型获得。优选地,所述第二词向量集合还包括与所述实体相关联的行业热词对应的词向量。优选地,所述词向量生成模型根据样本预先训练获得,所述样本包括样本词和对应的样本词向量。优选地,确定与所述第一词向量相似的多个第二词向量和第三词向量包括:分别计算所述第一词向量与每个所述第二词向量及每个所述第三词向量的相似度;选取所述相似度满足预定条件的多个所述第二词向量和所述第三词向量作为所述相似的多个第二词向量和第三词向量。优选地,根据所述第一词向量和预定的匹配模型获取所述相似的多个第二词向量和第三词向量的排序结果包括:根据所述第一词向量和所述预定的匹配模型获取所述第一词向量与所述相似的多个第二词向量和第三词向量的匹配概率;按所述匹配概率对对应的所述相似的多个第二词向量和第三词向量进行排序,将排序后的匹配概率作为所述排序结果。优选地,所述预定的匹配模型根据样本集合预先训练获得,所述样本集合中的每个样本包括一个所述第二词向量和一个随机选择的所述第三词向量及对应的匹配结果,所述匹配结果用于表征所述训练样本中的实体和实体属性是否匹配。根据本专利技术实施例的第二方面,提供一种计算机可读存储介质,其上存储计算机程序指令,其中,所述计算机程序指令在被处理器执行时实现如第一方面所述的方法。根据本专利技术实施例的第三方面,提供一种电子设备,包括存储器和处理器,其特征在于,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现如第一方面所述的方法。本专利技术实施例通过获取检索词对应的第一词向量,并遍历第二词向量集合和第三词向量集合,确定与所述第一词向量相似的多个第二词向量和第三词向量,其中,所述第二词向量集合包括预定的知识图谱中实体对应的词向量,所述第三词向量集合包括所述知识图谱中实体属性对应的词向量,从而根据所述第一词向量和预定的匹配模型获取所述相似的多个第二词向量和第三词向量的排序结果,进而根据所述排序结果确定所述检索词对应的实体。由此,可以提升信息检索的准确性。附图说明通过以下参照附图对本专利技术实施例的描述,本专利技术的上述以及其它目的、特征和优点将更为清楚,在附图中:图1是本专利技术实施例的实体检索方法的流程图;图2是本专利技术实施例的方法确定相似的多个第二词向量和第三词向量的流程图;图3是本专利技术实施例的方法获取所述相似的多个第二词向量和第三词向量的排序结果的流程图;图4是本专利技术实施例的电子设备的示意图。具体实施方式以下基于实施例对本专利技术进行描述,但是本专利技术并不仅仅限于这些实施例。在下文对本专利技术的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本专利技术。为了避免混淆本专利技术的实质,公知的方法、过程、流程、元件和电路并没有详细叙述。此外,本领域普通技术人员应当理解,在此提供的附图都是为了说明的目的,并且附图不一定是按比例绘制的。除非上下文明确要求,否则整个说明书和权利要求书中的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义;也就是说,是“包括但不限于”的含义。在本专利技术的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本专利技术的描述中,除非另有说明,“多个”的含义是两个或两个以上。图1是本专利技术实施例的实体检索方法的流程图。在本实施例中,以基于知识图谱和词向量的实体检索过程为例进行说明。用户在进行实体检索时,现有的搜索引擎通常将检索词与知识图谱中的实体及实体属性进行关键词匹配来获取需要查询的信息,但由于知识图谱中的实体和实体属性的数量较大,且实体和实体属性的概念会随着时间的发展产生变化,基于关键词匹配的信息检索方法准确性会逐渐降低。如图1所示,本实施例的方法包括如下步骤:步骤S100,获取检索词对应的第一词向量。在自然语言处理(NLP)中,每一个词均由对应的词向量表示,词向量是词汇表中的单词或短语被映射到实数的向量,用于表征对应的词的含义。在本步骤中,获取的词向量能够充分表征对应的词与上下文之间的相关性。步骤S200,遍历第二词向量集合和第三词向量集合,确定与所述第一词向量相似的多个第二词向量和第三词向量,其中,所述第二词向量集合包括预定的知识图谱中实体对应的词向量,所述第三词向量集合包括所述知识图谱中实体属性对应的词向量。在步骤S100和步骤S200中,所述第一词向量、所述第二词向量和所述第三词向量通过词向量生成模型获得。所述词向量生成模型可以采用各种算法获得,例如CBOW(连续词袋模型,ContinuousBag-Of-Word)、LBL(对数双线性语言模型,Log-BilinearLanguage)、NNLM(神经网络语言模型,NeuralNetworkLanguageModel)、Skip-Gram等。具体地,所述词向量生成模型根据样本预先训练获得,所述样本包括样本词和对应的样本词向量。在本实施例中,采用Skip-Gram作为词向量生成模型。Skip-Gram实质上是一个权重(也即,概率)矩阵,输出的词向量中的每一个值能够表示在输入的词的上下文中出现预定词的概率。例如输入的词为“柠檬”,输出的词向量中“酸”对应的值(也即,上下文中出现“酸”的概率)会较高,如0.9,“甜”对应的值(也即,上下文中出现“甜”的概率)会较低,如0.25,能够清晰地反映输入的词与上下文的相关性。且Skip-Gram能够较较简便地获取每个词对应的词向量。例如“柠檬”是整个模型词表中的第二个词,则权重矩阵中的第二行对应了“柠檬”的词向量。应理解,词向量的维数越高对于对应的词的特征描述越准确,维数越低计算量越低,因此可以根据计算能力和实际需要确定生成的词向量的维数。在步骤S200中,词本文档来自技高网...

【技术保护点】
1.一种实体检索方法,其特征在于,所述方法包括:获取检索词对应的第一词向量;遍历第二词向量集合和第三词向量集合,确定与所述第一词向量相似的多个第二词向量和第三词向量,其中,所述第二词向量集合包括预定的知识图谱中实体对应的词向量,所述第三词向量集合包括所述知识图谱中实体属性对应的词向量;根据所述第一词向量和预定的匹配模型获取所述相似的多个第二词向量和第三词向量的排序结果;以及根据所述排序结果确定所述检索词对应的实体。

【技术特征摘要】
1.一种实体检索方法,其特征在于,所述方法包括:获取检索词对应的第一词向量;遍历第二词向量集合和第三词向量集合,确定与所述第一词向量相似的多个第二词向量和第三词向量,其中,所述第二词向量集合包括预定的知识图谱中实体对应的词向量,所述第三词向量集合包括所述知识图谱中实体属性对应的词向量;根据所述第一词向量和预定的匹配模型获取所述相似的多个第二词向量和第三词向量的排序结果;以及根据所述排序结果确定所述检索词对应的实体。2.根据权利要求1所述的实体检索方法,其特征在于,所述第一词向量、所述第二词向量和所述第三词向量通过词向量生成模型获得。3.根据权利要求1所述的实体检索方法,其特征在于,所述第二词向量集合还包括与所述实体相关联的行业热词对应的词向量。4.根据权利要求2所述的实体检索方法,其特征在于,所述词向量生成模型根据样本预先训练获得,所述样本包括样本词和对应的样本词向量。5.根据权利要求1所述的实体检索方法,其特征在于,确定与所述第一词向量相似的多个第二词向量和第三词向量包括:分别计算所述第一词向量与所述第二词向量及所述第三词向量的相似度;选取所述相似度满足预定条件的多个所述...

【专利技术属性】
技术研发人员:黄华
申请(专利权)人:北京小乘网络科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1