【技术实现步骤摘要】
内容检索方法、检索库的构建方法、装置和设备
[0001]本公开涉及数据处理
,具体涉及知识图谱、智能搜索和自然语言处理等人工智能
,尤其涉及内容检索方法、检索库的构建方法、内容检索装置、检索库的构建装置、电子设备、存储有计算机指令的非瞬时计算机可读存储介质和计算机程序产品。
技术介绍
[0002]相关技术中,当用户进行检索时,通常需要多次翻页才能获取到真正感兴趣的知识,检索成本较高。另外,检索结果的内容与检索词的相关性较低,甚至有作弊网页提供虚假的索引词来误引导召回,影响用户体验。
技术实现思路
[0003]本公开提供了一种内容检索方法、检索库的构建方法、装置和设备。
[0004]根据本公开的第一方面,提供了一种内容检索方法,包括:
[0005]获取检索信息;
[0006]从检索库中的多个链指信息中,确定出与检索信息匹配的目标实体信息,其中,链指信息为利用知识图谱实体信息对抽取实体信息进行链指而得到的信息,抽取实体信息为对实体内容进行知识抽取而得到的信息;
[0007]从检索库中获取与目标实体信息相对应的实体内容。
[0008]根据本公开的第二方面,提供了一种检索库的构建方法,包括:
[0009]对实体内容进行知识抽取,得到抽取实体信息;
[0010]利用知识图谱实体信息对抽取实体信息进行链指,得到链指信息;
[0011]将链指信息与实体内容进行匹配,并存入检索库。
[0012]根据本公开的第三方面,提供了一种内容检索 ...
【技术保护点】
【技术特征摘要】
1.一种内容检索方法,包括:获取检索信息;从检索库中的多个链指信息中,确定出与所述检索信息匹配的目标实体信息,其中,所述链指信息为利用知识图谱实体信息对抽取实体信息进行链指而得到的信息,所述抽取实体信息为对实体内容进行知识抽取而得到的信息;从所述检索库中获取与所述目标实体信息相对应的实体内容。2.根据权利要求1所述的方法,其中,所述检索信息包括结构化检索信息,从检索库中的多个链指信息中,确定出与所述检索信息匹配的目标实体信息,包括:从结构化信息检索库中的多个结构化链指信息中,确定出与所述结构化检索信息对应的目标实体信息。3.根据权利要求1所述的方法,其中,所述检索信息包括词检索信息,从检索库中的多个链指信息中,确定出与所述检索信息匹配的目标实体信息,包括:从文本信息检索库中的多个文本链指信息中,确定出与所述词检索信息对应的目标实体信息。4.根据权利要求1所述的方法,其中,所述检索信息包括向量检索特征,从检索库中的多个链指信息中,确定出与所述检索信息匹配的目标实体信息,包括:从向量特征检索库中的多个向量化链指信息中,确定出与所述向量检索特征对应的目标实体信息,其中,所述向量化链指信息为对结构化链指信息和/或文本链指信息的向量化表示。5.根据权利要求1至4任一项所述的方法,其中,从所述检索库中获取与所述目标实体信息相对应的实体内容,包括:从所述检索库中获取与所述目标实体信息相对应的多个第一待选实体内容;对所述多个第一待选实体内容进行主题聚类,得到多个聚类结果;从所述多个聚类结果中确定出与所述目标实体信息的主题相关的第二待选实体内容;基于预设的相关性模型,从多个所述第二待选实体内容筛选出至少一个目标实体内容。6.根据权利要求5所述的方法,其中,从所述检索库中获取与所述目标实体信息相对应的实体内容,还包括:对多个所述目标实体内容进行排序。7.一种检索库的构建方法,包括:对实体内容进行知识抽取,得到抽取实体信息;利用知识图谱实体信息对所述抽取实体信息进行链指,得到链指信息;将所述链指信息与所述实体内容进行匹配,并存入检索库。8.根据权利要求7所述的方法,其中,所述实体内容包括文本内容,对实体内容进行知识抽取,得到抽取实体信息,包括:对所述实体内容进行实体抽取和实体关系抽取,得到所述抽取实体信息。9.根据权利要求7所述的方法,其中,所述实体内容包括图片、音频和视频中的至少一个,对实体内容进行知识抽取,得到抽取实体信息,包括:对所述实体内容进行内容识别,以得到所述实体内容的描述信息;
对所述描述信息进行实体抽取和实体关系抽取,以得到所述抽取实体信息。10.根据权利要求7所述的方法,其中,所述检索库包括结构化信息检索库,将所述链指信息与所述实体内容进行匹配,并存入检索库,包括:获取与所述链指信息相对应的结构化信息,以得到结构化链指信息;将所述结构化链指信息与所述实体内容进行匹配,并存入所述结构化信息检索库。11.根据权利要求7所述的方法,其中,所述检索库包括文本信息检索库,将所述链指信息与所述实体内容进行匹配,并存入检索库,包括:获取与所述链指信息相对应的文本信息,以得到文本链指信息;将所述文本链指信息与所述实体内容进行匹配,并存入所述文本信息检索库。12.根据权利要求7所述的方法,其中,所述检索库包括向量特征检索库,将所述链指信息与所述实体内容进行匹配,并存入检索库,包括:获取与所述链指信息相对应的结构化信息和/或文本信息;对所述结构化信息和/或文本信息进行向量化表示,得到向量化链指信息;将所述向量化链指信息与所述实体内容进行匹配,并存入所述向量特征检索库。13.一种内容检索装置,包括:检索信息获取模块,用于获取检索信息;信息确定模块,用于从检索库中的多个链指信息中,确定出与所述检索信息匹配的目标实体信息,其中,所述链指信息为利用知识图谱实体信息对抽取实体信息进行链指而得到的信息,所述抽取实体信息为对实体内容进行知识抽取而得到的信息;内容获取模块,用于从...
【专利技术属性】
技术研发人员:王建华,冯知凡,柴春光,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。