基于SPO数据的搜索方法、装置、设备和存储介质制造方法及图纸

技术编号:19778453 阅读:65 留言:0更新日期:2018-12-15 11:21
本发明专利技术提供一种基于SPO数据的搜索方法、装置、设备和存储介质。该方法包括:接收用户的搜索请求;所述搜索请求包括实体名称;根据预先存储的知识图谱的SPO数据,获取所述实体名称对应的属性名和属性值;所述SPO数据包括主语S、谓语P、宾语O三元组信息;所述S元组用于存储实体名称;所述P元组用于存储与所述实体名称对应的属性名;所述O元组用于存储与所述实体名称对应的属性值;向所述用户显示所述实体名称对应的属性名和属性值。本发明专利技术实施例能够直观、精准地将属性名和属性值作为搜索结果提供给用户,从而提高搜索效率,提升用户搜索体验。

【技术实现步骤摘要】
基于SPO数据的搜索方法、装置、设备和存储介质
本专利技术涉及计算机
,尤其涉及一种基于SPO数据的搜索方法、装置、设备和存储介质。
技术介绍
随着信息技术的飞速发展,当今社会进入了信息爆炸时代,人们越来越多地借助网络来寻找自己需要的信息,因此,检索成为人们工作、生活不可或缺的一部分。人们通常使用搜索引擎来进行检索,搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将与用户检索相关的信息展示给用户的系统。用户在使用搜索引擎时,通过搜索查询条件(例如刘德华)识别到用户需求的实体,然后展现实体的基本信息以及一些跳转链接,如果用户想看更多的该实体的属性信息,则需要点击链接跳转,然后去跳转之后的页面去查找,操作繁琐,用户体验较差。
技术实现思路
本专利技术提供一种基于SPO数据的搜索方法、装置、设备和存储介质,以解决现有的搜索过程中操作繁琐,用户体验较差的问题。第一方面,本专利技术提供一种基于SPO数据的搜索方法,包括:接收用户的搜索请求;所述搜索请求包括实体名称;根据预先存储的知识图谱的SPO数据,获取所述实体名称对应的属性名和属性值;所述SPO数据包括主语S、谓语P、宾语O三元组信息;所述S元组用于存储实体名称;所述P元组用于存储与所述实体名称对应的属性名;所述O元组用于存储与所述实体名称对应的属性值;向所述用户显示所述实体名称对应的属性名和属性值第二方面,本专利技术提供一种基于SPO数据的搜索装置,包括:接收模块,用于接收用户的搜索请求;所述搜索请求包括实体名称;处理模块,用于根据预先存储的知识图谱的SPO数据,获取所述实体名称对应的属性名和属性值;所述SPO数据包括主语S、谓语P、宾语O三元组信息;所述S元组用于存储实体名称;所述P元组用于存储与所述实体名称对应的属性名;所述O元组用于存储与所述实体名称对应的属性值;显示模块,用于向所述用户显示所述实体名称对应的属性名和属性值。第三方面,本专利技术提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现第一方面中任一项所述的方法。第四方面,本专利技术提供一种电子设备,包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行第一方面中任一项所述的方法。本专利技术实施例提供的基于SPO数据的搜索方法、装置、设备和存储介质,接收用户的搜索请求,根据知识图谱的SPO数据,获取到与搜索请求中实体名称对应的属性名和属性值,并将属性名和属性值向用户显示,能够直观、精准地将属性名和属性值作为搜索结果提供给用户,从而提高搜索效率,提升用户搜索体验。附图说明此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。图1是本专利技术提供的搜索方法一实施例的流程示意图;图2是本专利技术提供的搜索方法另一实施例的流程示意图;图3是本专利技术提供的搜索方法一实施例的ID分配原理示意图;图4是本专利技术提供的搜索方法另一实施例的ID分配原理示意图;图5是本专利技术提供的搜索装置一实施例的结构示意图;图6是本专利技术提供的电子设备一实施例的结构示意图。通过上述附图,已示出本公开明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围,而是通过参考特定实施例为本领域技术人员说明本公开的概念。具体实施方式这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。本专利技术的说明书和权利要求书及所述附图中的术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。首先对本专利技术所涉及的名词和场景进行介绍:知识图谱旨在描述真实世界中存在的各种实体(如人物、汉字、视频、音乐、影视、小说等)或概念,每个实体或概念用一个全局唯一确定的ID(Identity,身份标识)来标识。每个属性名-属性值对用来刻画实体的内在特性,而关系用来连接两个实体,刻画它们之间的关联。知识图谱亦可被看作是一张巨大的网状图,网状图中的节点表示实体或概念,而网状图中的边则由属性或关系构成。知识图谱主要就是构建和维护上述的实体和关系,为搜索中的推荐系统、语义理解、问题回答等提供支持。本专利技术可以从互联网海量数据(例如结构化数据、网页源数据、用户生成数据等)利用数据挖掘方法整理组织,构建知识图谱。知识图谱中的SPO数据包括主语S、谓语P、宾语O三元组信息;所述S用于存储实体名称;所述P用于存储与所述实体名称对应的属性名;所述O用于存储与所述实体名称对应的属性值,进而通过特有的查询条件查询知识图谱中相关的知识信息。本专利技术实施例基于知识图谱,提供了一种搜索方法,即对用户的搜索请求进行解析,得到实体名称,根据知识图谱的SPO数据,获取到与实体名称对应的属性名和属性值,并将属性名和属性值向用户显示,能够直观、精准地将属性名和属性值作为搜索结果提供给用户,解决了相关技术中在搜索结果中无法直接地展示这些信息,而需要用户花费较多时间从相关网页中筛选出这部分信息的问题,从而提高搜索效率,提升用户搜索体验。而且,本专利技术基于SPO数据构建知识图谱,知识图谱中的数据项包括S、P、O三元组信息,基于知识图的SPO数据对用户提供搜索服务时,能够为用户提供准确的搜索结果。基于SPO构建知识图谱,需要建设SPO数据,一方面对于不同的产品可以根据需求建设需要的SPO数据,另一方面可以在知识图谱的核心集中获取SPO数据,但是前者对于相同的SPO数据存在重复建设的问题,从整体成本看,存在人力浪费,而且不同的产品之间的SPO数据无法互用,数据利用率低;后者,一方面由于模式schema的约束条件导致核心集上收录的SPO数据必须是在schema上定义的属性。如果SPO数据对应的属性未在schema上定义,那么SPO数据则无法收录进核心集,因此会导致有大量的SPO数据,无法收录进核心集;另一方面,核心集是存在择优策略的,将多源的数据进行择优,然后一个属性上只保留择优后的属性值。无法满足产品端有个性化的择优策略的需求,比如通用卡片,对于某个属性或者某个实体名称,只需要来源百科的属性。本专利技术实施例中的方法通过建立统一的SPO库可以避免上述两个方面的问题。图1是本专利技术提供的搜索方法一实施例的流程示意图。如图1所示,本实施例提供的方法,包括:步骤101、接收用户的搜索请求;搜索请求包括实体名称。具体的,用户的搜索请求,例如包括:刘德华,刘德华为实体名称。步骤102、根据预先存储的知识图谱的SPO数据,获取实体名称对应的属性名和属性值;SPO数据包括主语S、谓语P、宾语O三元组信息;S元组用于存储实体名称;P元组用于存储与实体名称对应的属性名;O元组用于存储本文档来自技高网...

【技术保护点】
1.一种基于SPO数据的搜索方法,其特征在于,包括:接收用户的搜索请求;所述搜索请求包括实体名称;根据预先存储的知识图谱的SPO数据,获取所述实体名称对应的属性名和属性值;所述SPO数据包括主语S、谓语P、宾语O三元组信息;S元组用于存储实体名称;P元组用于存储与所述实体名称对应的属性名;O元组用于存储与所述实体名称对应的属性值;向所述用户显示所述实体名称对应的属性名和属性值。

【技术特征摘要】
1.一种基于SPO数据的搜索方法,其特征在于,包括:接收用户的搜索请求;所述搜索请求包括实体名称;根据预先存储的知识图谱的SPO数据,获取所述实体名称对应的属性名和属性值;所述SPO数据包括主语S、谓语P、宾语O三元组信息;S元组用于存储实体名称;P元组用于存储与所述实体名称对应的属性名;O元组用于存储与所述实体名称对应的属性值;向所述用户显示所述实体名称对应的属性名和属性值。2.根据权利要求1所述的方法,其特征在于,所述获取所述实体名称对应的属性名和属性值之前,还包括:将获取到的源数据进行转化处理,得到SPO数据;将所述SPO数据作为所述知识图谱的数据项收录在SPO库中;所述获取所述实体名称对应的属性名和属性值,包括:根据所述SPO库中存储的SPO数据,获取所述实体名称对应的属性名和属性值。3.根据权利要求2所述的方法,其特征在于,所述源数据包括结构化数据;所述结构化数据包括:实体名称以及与所述实体名称对应的属性名和属性值;所述将获取到的源数据进行转化处理,包括:将所述结构化数据中的实体名称存储在所述SPO数据的S元组中;建立所述结构化数据中的属性名与所述知识图谱的模式schema上定义的属性名PID的对应关系,并将所述对应关系存储在所述SPO数据的P元组中;将所述结构化数据中的属性值根据所述schema的约束条件进行处理,得到处理后的属性值,并将所述属性值存储在所述SPO数据的O元组中。4.根据权利要求2或3所述的方法,其特征在于,将所述SPO数据作为所述知识图谱的数据项收录在SPO库中之前,还包括:对所述SPO数据分配来源标识ID;根据所述SPO数据的S、P、O三元组信息、所述来源标识ID和来源方式计算所述SPO数据的第一标识ID。5.根据权利要求4所述的方法,其特征在于,还包括:对所述SPO数据分配第二标识ID;建立所述第一标识ID和所述第二标识ID的对应关系。6.根据权利要求2或3所述的方法,其特征在于,将所述SPO数据作为所述知识图谱的数据项收录在SPO库中,包括:将所述SPO数据流式收录到所述SPO库中;和/或,将所述SPO数据批量收录到所述SPO库中。7.根据权利要求5所述的方法,其特征在于,所述对所述SPO数据分配第二标识ID,包括:利用redis的原子setnx操作对所述SPO数据分配所述第二标识ID。8.根据权利要求6所述的方法,其特征在于,将所述SPO数据作为所述知识图谱的数据项收录在SPO库中,包括:根据所述SPO数据的版本号,将所述SPO数据收录在所述SPO库中。9.根据权利要求2或3所述的方法,其特征在于,将所述SPO数据作为所述知识图谱的数据项收录在SPO库中之前,还包括:建立所述SPO数据的实体名称对应的属性值与其他实体名称的关联关系。10.根据权利要求2或3所述的方法,其特征在于,将所述SPO数据作为所述知识图谱的数据项收录在SPO库中之前,还包括:计算所述SPO数据的置信度,所述置信度用于衡量所述SPO数据的准确性。11.根...

【专利技术属性】
技术研发人员:许超陆超
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1