一种基于知识图谱的搜索方法及装置制造方法及图纸

技术编号:21914026 阅读:19 留言:0更新日期:2019-08-21 12:26
本申请提供一种基于知识图谱的搜索方法及装置,其中所述方法包括:获取来自用户的待搜索语句;对所述待搜索语句进行意图识别,确定所述待搜索语句的类型;基于命名实体识别和所述待搜索语句的类型,将所述待搜索语句解析为包含有实体和关系的节点查询语句;在预设的知识图谱的图数据库中搜索与所述节点查询语句匹配的三元组;在获取到与所述节点查询语句匹配的三元组的情况下,将所述三元组中的实体作为搜索结果返回至所述用户。

A Search Method and Device Based on Knowledge Map

【技术实现步骤摘要】
一种基于知识图谱的搜索方法及装置
本申请涉及计算机
,特别涉及一种基于知识图谱的搜索方法、装置、计算设备及计算机可读存储介质。
技术介绍
目前,用户在进行目标文件搜索时,可以采用百度或谷歌等搜索引擎,通过目标文件的名称或者模糊查询检索词进行检索,在显示搜索结果的网页信息中逐条进行筛选;用户也可以浏览包含有目标文件的门户网站,在门户网站的文件库中查找所需要的目标文件。然而,在利用搜索引擎进行搜索目标文件时,往往获得的搜索结果是零散化和碎片化的,需要人为甄别且精度不高缺少联系;在通过门户网站进行搜索时,由于门户网站的搜索功能相对落后,需要消耗大量的人力劳动和时间成本,造成搜索效率低下。
技术实现思路
有鉴于此,本申请实施例提供了一种基于知识图谱的搜索方法、装置、计算设备及计算机可读存储介质,以解决现有技术中存在的技术缺陷。根据本申请实施例的第一方面,提供了一种基于知识图谱的搜索方法,包括:获取来自用户的待搜索语句;对所述待搜索语句进行意图识别,确定所述待搜索语句的类型;基于命名实体识别和所述待搜索语句的类型,将所述待搜索语句解析为包含有实体和关系的节点查询语句;在预设的知识图谱的图数据库中搜索与所述节点查询语句匹配的三元组;在获取到与所述节点查询语句匹配的三元组的情况下,将所述三元组中的实体作为搜索结果返回至所述用户。根据本申请实施例的第二方面,提供了一种基于知识图谱的搜索装置,包括:用户问句模块,被配置为获取来自用户的待搜索语句;意图识别模块,被配置为对所述待搜索语句进行意图识别,确定所述待搜索语句的类型;语句解析模块,被配置为基于命名实体识别和所述待搜索语句的类型,将所述待搜索语句解析为包含有实体和关系的节点查询语句;搜索模块,被配置为在预设的知识图谱的图数据库中搜索与所述节点查询语句匹配的三元组;结果返回模块,被配置为在获取到与所述节点查询语句匹配的三元组的情况下,将所述三元组中的实体作为搜索结果返回至所述用户。根据本申请实施例的第三方面,提供了一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述指令时实现所述基于知识图谱的搜索方法的步骤。根据本申请实施例的第四方面,提供了一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现所述基于知识图谱的搜索方法的步骤。本申请基于知识图谱的智能搜索功能,通过将带搜索语句进行意图识别和要点提炼,为用户提供了精确快速的信息搜索功能,提高了搜索的效率,减少了搜索所消耗的时间。附图说明图1是本申请实施例提供的计算设备的结构框图;图2是本申请实施例提供的基于知识图谱的搜索方法的流程图;图3是本申请实施例提供的基于知识图谱的搜索方法的示意图;图4是本申请实施例提供的基于知识图谱的搜索方法中应用的意图识别模型的结构示意图;图5是本申请实施例提供的基于知识图谱的搜索方法的示意图图6是本申请实施例提供的基于知识图谱的搜索装置的结构示意图。具体实施方式在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。应当理解,尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。在本申请中,提供了一种基于知识图谱的搜索方法、装置、计算设备及计算机可读存储介质,在下面的实施例中逐一进行详细说明。图1示出了根据本说明书一实施例的计算设备100的结构框图。该计算设备100的部件包括但不限于存储器110和处理器120。处理器120与存储器110通过总线130相连接,数据库150用于保存数据。计算设备100还包括接入设备140,接入设备140使得计算设备100能够经由一个或多个网络160通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备140可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC))中的一个或多个,诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口,等等。在本说明书的一个实施例中,计算设备100的上述部件以及图1中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图1所示的计算设备结构框图仅仅是出于示例的目的,而不是对本说明书范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。计算设备100可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC的静止计算设备。计算设备100还可以是移动式或静止式的服务器。其中,处理器120可以执行图2所示方法中的步骤。图2是示出了根据本申请一实施例的基于知识图谱的搜索方法的示意性流程图,包括步骤201至步骤207。步骤201:获取来自用户的待搜索语句。在本申请的实施例中,系统可以获取来自用户的待搜索语句,并将所述待搜索语句作为用户向系统进行查询的查询语句,例如,用户在应用层输入待搜索语句“关于人工智能的发布文件”,则系统会将待搜索语句“关于人工智能的发布文件”作为用户向系统进行查询的查询语句进行后续的操作。步骤202:对所述待搜索语句进行意图识别,确定所述待搜索语句的类型。在本申请的实施例中,系统通过对所述待搜索语句进行意图识别,判断用户向系统提问的意图,并根据用户向系统提问的意图确定所述待搜索语句的类型,从而在搜索时根据用户的意图进行有针对性的搜索,将与所述待搜索语句关联性最大的搜索结果作为答案返回给用户,例如,用户在应用层输入待搜索语句“仙剑奇侠传”,而待搜索语句“仙剑奇侠传”的搜索结果一般包括游戏类、电视剧类、新闻类和图片类等,系统可以通过意图识别发现该用户的意图是电视剧类,则直接把包含“仙剑奇侠传”的电视剧类作为结果返回给用户,就会节省用户的搜索点击次数,缩短搜索时间,大大提升用户的使用体验。步骤203:基于命名实体识别和所述待搜索语句的类型,将所述待搜索语句解析为包含有实体和关系的节点查询语句。在本申请的实施例中,系统通过命名实体识别技术从所本文档来自技高网...

【技术保护点】
1.一种基于知识图谱的搜索方法,其特征在于,包括:获取来自用户的待搜索语句;对所述待搜索语句进行意图识别,确定所述待搜索语句的类型;基于命名实体识别和所述待搜索语句的类型,将所述待搜索语句解析为包含有实体和关系的节点查询语句;在预设的知识图谱的图数据库中搜索与所述节点查询语句匹配的三元组;在获取到与所述节点查询语句匹配的三元组的情况下,将所述三元组中的实体作为搜索结果返回至所述用户。

【技术特征摘要】
1.一种基于知识图谱的搜索方法,其特征在于,包括:获取来自用户的待搜索语句;对所述待搜索语句进行意图识别,确定所述待搜索语句的类型;基于命名实体识别和所述待搜索语句的类型,将所述待搜索语句解析为包含有实体和关系的节点查询语句;在预设的知识图谱的图数据库中搜索与所述节点查询语句匹配的三元组;在获取到与所述节点查询语句匹配的三元组的情况下,将所述三元组中的实体作为搜索结果返回至所述用户。2.根据权利要求1所述的方法,其特征在于,在获取来自用户的待搜索语句之前,还包括:从数据源中获取结构化数据和非结构化数据;将所述结构化数据和非结构化数据存储在分布式系统集群中;从所述分布式系统集群中提取多个三元组;根据所述多个三元组构建知识图谱并存储在图数据库中。3.根据权利要求1所述的方法,其特征在于,对所述待搜索语句进行意图识别,确定所述待搜索语句的类型包括:将所述待搜索语句分解为对应的词序列;将所述词序列输入意图识别模型进行意图识别并确定所述待搜索语句的类型,所述意图识别模型包括:意图识别组件,通过所述词序列识别所述待搜索语句的意图;类型确定组件,通过所述词序列确定出所述词序列中每个词的属性;类型选择组件,用来提供期望选取的对象的属性。4.根据权利要求3所述的方法,其特征在于,所述意图识别组件组包括双向长短期记忆网络模型和意图注意力意模型;所述类型确定组件包括槽位门模型和槽位注意力模型;所述类型选择组件为条件随机场。5.根据权利要求2所述的方法,其特征在于,还包括:在未获取到与所述节点查询语句匹配的三元组的情况下,对所述待搜索语句进行分词,得到所述待搜索语句对应的模糊查询检索词;根据所述待搜索语句对应的模糊查询检索词在所述分布式系统集群中进行模糊查询...

【专利技术属性】
技术研发人员:李长亮江凡汪美玲唐剑波
申请(专利权)人:北京金山数字娱乐科技有限公司成都金山数字娱乐科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1