内容检索方法、检索库的构建方法、装置和设备制造方法及图纸

技术编号:32792797 阅读:18 留言:0更新日期:2022-03-23 19:54
本公开提供了内容检索方法、检索库的构建方法、装置和设备,涉及知识图谱、智能搜索和自然语言处理等人工智能技术领域。其中,内容检索方法包括:获取检索信息;从检索库中的多个链指信息中,确定出与检索信息匹配的目标实体信息,其中,链指信息为链指抽取实体信息和知识图谱实体信息而得到的信息,抽取实体信息为对实体内容进行知识抽取后得到的信息;从检索库中获取与目标实体信息相对应的实体内容。根据本公开的内容检索方法,可以实现网页信息的知识化,用户可以精准获取到感兴趣的知识,可以有效解决检索结果的内容与检索词的相关性较低的问题,可以提高检索效率,有效提升用户体验。体验。体验。

【技术实现步骤摘要】
内容检索方法、检索库的构建方法、装置和设备


[0001]本公开涉及数据处理
,具体涉及知识图谱、智能搜索和自然语言处理等人工智能
,尤其涉及内容检索方法、检索库的构建方法、内容检索装置、检索库的构建装置、电子设备、存储有计算机指令的非瞬时计算机可读存储介质和计算机程序产品。

技术介绍

[0002]相关技术中,当用户进行检索时,通常需要多次翻页才能获取到真正感兴趣的知识,检索成本较高。另外,检索结果的内容与检索词的相关性较低,甚至有作弊网页提供虚假的索引词来误引导召回,影响用户体验。

技术实现思路

[0003]本公开提供了一种内容检索方法、检索库的构建方法、装置和设备。
[0004]根据本公开的第一方面,提供了一种内容检索方法,包括:
[0005]获取检索信息;
[0006]从检索库中的多个链指信息中,确定出与检索信息匹配的目标实体信息,其中,链指信息为利用知识图谱实体信息对抽取实体信息进行链指而得到的信息,抽取实体信息为对实体内容进行知识抽取而得到的信息;
[0007]从检索库中获取与目标实体信息相对应的实体内容。
[0008]根据本公开的第二方面,提供了一种检索库的构建方法,包括:
[0009]对实体内容进行知识抽取,得到抽取实体信息;
[0010]利用知识图谱实体信息对抽取实体信息进行链指,得到链指信息;
[0011]将链指信息与实体内容进行匹配,并存入检索库。
[0012]根据本公开的第三方面,提供了一种内容检索装置,包括:
[0013]检索信息获取模块,用于获取检索信息;
[0014]信息确定模块,用于从检索库中的多个链指信息中,确定出与检索信息匹配的目标实体信息,其中,链指信息为利用知识图谱实体信息对抽取实体信息进行链指而得到的信息,抽取实体信息为对实体内容进行知识抽取而得到的信息;
[0015]内容获取模块,用于从检索库中获取与目标实体信息相对应的实体内容。
[0016]根据本公开的第四方面,提供了一种检索库的构建装置,包括:
[0017]信息抽取模块,用于对实体内容进行知识抽取,得到抽取实体信息;
[0018]链指模块,用于利用知识图谱实体信息对抽取实体信息进行链指,得到链指信息;
[0019]匹配模块,用于将链指信息与实体内容进行匹配,并存入检索库。
[0020]根据本公开的第五方面,提供了一种电子设备,包括:
[0021]至少一个处理器;以及
[0022]与至少一个处理器通信连接的存储器;其中,
[0023]存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以
使至少一个处理器能够执行上述各方面任一实施方式的方法。
[0024]根据本公开的第六方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,计算机指令用于使计算机执行上述各方面任一实施方式的方法。
[0025]根据本公开的第七方面,提供了一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现上述各方面任一实施方式的方法。
[0026]根据本公开的技术方案,检索库中的多个链指信息可以实现网页信息的知识化,使最终获取到的实体内容与检索信息可以相对应,用户可以精准获取到感兴趣的知识,可以有效解决检索结果的内容与检索词的相关性较低的问题,避免作弊网页提供虚假的索引词来误引导召回,可以提高检索效率,有效提升用户体验。
[0027]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0028]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0029]图1是根据本公开实施例的内容检索方法的流程示意图;
[0030]图2是根据本公开实施例的内容检索方法的获取实体内容的示意图;
[0031]图3是根据本公开实施例的检索库的构建方法的流程示意图;
[0032]图4是根据本公开实施例的实体内容为文本内容的示意图;
[0033]图5是根据本公开实施例的实体内容为图片的示意图;
[0034]图6是根据本公开实施例的内容检索方法和检索库的构建方法的应用示例图;
[0035]图7是根据本公开实施例的内容检索装置的结构框图;
[0036]图8是根据本公开实施例的检索库的构建装置的结构框图;
[0037]图9是用来实现本公开实施例的内容检索方法或检索库的构建方法的电子设备的框图。
具体实施方式
[0038]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0039]如图1所示,根据本公开第一方面实施例的内容检索方法,包括:
[0040]步骤S110:获取检索信息。
[0041]步骤S120:从检索库中的多个链指信息中,确定出与检索信息匹配的目标实体信息,其中,链指信息为利用知识图谱实体信息对抽取实体信息进行链指而得到的信息,抽取实体信息为对实体内容进行知识抽取而得到的信息。
[0042]步骤S130:从检索库中获取与目标实体信息相对应的实体内容。
[0043]例如,在实体内容为“被开除军籍的冷锋(A某饰演)本是因找杀害龙小云(B某饰演)的凶手来到非洲,但是却突然被卷入一场非洲国家的叛乱”的情况下,对实体内容进行抽取,可以得到抽取实体信息:“冷锋(A某)”和“龙小云(B某)”均为人物,“非洲”为地点,“查
找凶手”以及“非洲国家叛乱”为事件。
[0044]进一步地,利用知识图谱实体信息对抽取实体信息进行链指,得到链指信息如下:“实体”:“战狼2”,“类型”:“电影”;“人物”:“actor(演员)”:“A某”,“character(角色)”:“冷锋”;“actor”:“B某”,“character”:“龙小云”;“地点”:“name(名称)”:“非洲”;“事件”:“info(信息)”:“查找凶手”,“非洲国家叛乱”。
[0045]由此,可以对互联网上存在的各种实体内容进行知识抽取而得到抽取实体信息,以实现对实体内容的知识识别。通过利用知识图谱实体信息对抽取实体信息进行链指,可以保证各抽取实体信息对应的各知识图谱实体信息有足够的知识支撑,提高链指信息的准确性。
[0046]示例性地,在接收到用户检索query(查询)后,可以利用基于知识抽取的qu模块对query进行解析,以获取query的成分、id(Identity,身份)、主题等检索信息,以将用户检索信息知识化,方便信息的匹配检索。例如,在query为“关于C某和D某天台对本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种内容检索方法,包括:获取检索信息;从检索库中的多个链指信息中,确定出与所述检索信息匹配的目标实体信息,其中,所述链指信息为利用知识图谱实体信息对抽取实体信息进行链指而得到的信息,所述抽取实体信息为对实体内容进行知识抽取而得到的信息;从所述检索库中获取与所述目标实体信息相对应的实体内容。2.根据权利要求1所述的方法,其中,所述检索信息包括结构化检索信息,从检索库中的多个链指信息中,确定出与所述检索信息匹配的目标实体信息,包括:从结构化信息检索库中的多个结构化链指信息中,确定出与所述结构化检索信息对应的目标实体信息。3.根据权利要求1所述的方法,其中,所述检索信息包括词检索信息,从检索库中的多个链指信息中,确定出与所述检索信息匹配的目标实体信息,包括:从文本信息检索库中的多个文本链指信息中,确定出与所述词检索信息对应的目标实体信息。4.根据权利要求1所述的方法,其中,所述检索信息包括向量检索特征,从检索库中的多个链指信息中,确定出与所述检索信息匹配的目标实体信息,包括:从向量特征检索库中的多个向量化链指信息中,确定出与所述向量检索特征对应的目标实体信息,其中,所述向量化链指信息为对结构化链指信息和/或文本链指信息的向量化表示。5.根据权利要求1至4任一项所述的方法,其中,从所述检索库中获取与所述目标实体信息相对应的实体内容,包括:从所述检索库中获取与所述目标实体信息相对应的多个第一待选实体内容;对所述多个第一待选实体内容进行主题聚类,得到多个聚类结果;从所述多个聚类结果中确定出与所述目标实体信息的主题相关的第二待选实体内容;基于预设的相关性模型,从多个所述第二待选实体内容筛选出至少一个目标实体内容。6.根据权利要求5所述的方法,其中,从所述检索库中获取与所述目标实体信息相对应的实体内容,还包括:对多个所述目标实体内容进行排序。7.一种检索库的构建方法,包括:对实体内容进行知识抽取,得到抽取实体信息;利用知识图谱实体信息对所述抽取实体信息进行链指,得到链指信息;将所述链指信息与所述实体内容进行匹配,并存入检索库。8.根据权利要求7所述的方法,其中,所述实体内容包括文本内容,对实体内容进行知识抽取,得到抽取实体信息,包括:对所述实体内容进行实体抽取和实体关系抽取,得到所述抽取实体信息。9.根据权利要求7所述的方法,其中,所述实体内容包括图片、音频和视频中的至少一个,对实体内容进行知识抽取,得到抽取实体信息,包括:对所述实体内容进行内容识别,以得到所述实体内容的描述信息;
对所述描述信息进行实体抽取和实体关系抽取,以得到所述抽取实体信息。10.根据权利要求7所述的方法,其中,所述检索库包括结构化信息检索库,将所述链指信息与所述实体内容进行匹配,并存入检索库,包括:获取与所述链指信息相对应的结构化信息,以得到结构化链指信息;将所述结构化链指信息与所述实体内容进行匹配,并存入所述结构化信息检索库。11.根据权利要求7所述的方法,其中,所述检索库包括文本信息检索库,将所述链指信息与所述实体内容进行匹配,并存入检索库,包括:获取与所述链指信息相对应的文本信息,以得到文本链指信息;将所述文本链指信息与所述实体内容进行匹配,并存入所述文本信息检索库。12.根据权利要求7所述的方法,其中,所述检索库包括向量特征检索库,将所述链指信息与所述实体内容进行匹配,并存入检索库,包括:获取与所述链指信息相对应的结构化信息和/或文本信息;对所述结构化信息和/或文本信息进行向量化表示,得到向量化链指信息;将所述向量化链指信息与所述实体内容进行匹配,并存入所述向量特征检索库。13.一种内容检索装置,包括:检索信息获取模块,用于获取检索信息;信息确定模块,用于从检索库中的多个链指信息中,确定出与所述检索信息匹配的目标实体信息,其中,所述链指信息为利用知识图谱实体信息对抽取实体信息进行链指而得到的信息,所述抽取实体信息为对实体内容进行知识抽取而得到的信息;内容获取模块,用于从...

【专利技术属性】
技术研发人员:王建华冯知凡柴春光
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1