【技术实现步骤摘要】
一种实体意图体系的建立方法、装置、设备和介质
本申请涉及计算机
,具体涉及知识图谱、智能搜索技术。
技术介绍
目前人们的生活和工作中,会大量使用搜索引擎,通过搜索来获得想要获得的信息。在搜索中,有大约10%的检索词是与实体相关。在这类实体搜索中,用户关注某个实体的认知类需求。为了便捷、精准地匹配用户对实体的认知类需求,将搜索实体时所采用的意图词汇,进行总结,汇集成为意图词汇体系,再辅助搜索,这是符合用户的认知需求的。现有技术对实体意图体系的构建,是通过人工标注的方式来实现的。这显然需要消耗大量人力资源,且多人操作时标准尺度不统一。
技术实现思路
本申请实施例提供一种实体意图体系的建立方法、装置、设备和介质,以提高实体意图体系构建效率,以及与搜索真实意图的契合度。第一方面,本申请实施例公开了一种实体意图体系的建立方法,所述方法包括:对设定领域的历史检索式进行意图词标注,基于标注的各意图词构建领域意图体系,所述领域意图体系包括至少两层意图词及层次关联关系;针对待标 ...
【技术保护点】
1.一种实体意图体系的建立方法,其特征在于,包括:/n对设定领域的历史检索式进行意图词标注,基于标注的各意图词构建领域意图体系,所述领域意图体系包括至少两层意图词及层次关联关系;/n针对待标注实体,获取所述待标注实体的历史检索式,从所述历史检索式中识别所述待标注实体的意图词;/n根据所述领域意图体系中的意图词的层次关联关系,构建所述待标注实体的识别到的意图词之间的层次关联关系,作为所述待标注实体的意图体系。/n
【技术特征摘要】
1.一种实体意图体系的建立方法,其特征在于,包括:
对设定领域的历史检索式进行意图词标注,基于标注的各意图词构建领域意图体系,所述领域意图体系包括至少两层意图词及层次关联关系;
针对待标注实体,获取所述待标注实体的历史检索式,从所述历史检索式中识别所述待标注实体的意图词;
根据所述领域意图体系中的意图词的层次关联关系,构建所述待标注实体的识别到的意图词之间的层次关联关系,作为所述待标注实体的意图体系。
2.根据权利要求1所述的方法,其特征在于,对设定领域的历史检索式进行意图词标注,基于标注的各意图词构建领域意图体系包括:
从所述设定领域的多个实体中选择设定数量的代表性实体;
获取各所述代表性实体的历史检索式;
对各所述代表性实体的历史检索式进行意图词标注和各意图词的层次关联关系标注;
基于标注结果,构建各所述代表性实体的意图体系,作为领域意图体系。
3.根据权利要求1所述的方法,其特征在于,针对待标注实体,获取所述待标注实体的历史检索式,从所述历史检索式中识别所述待标注实体的意图词包括:
获取所述待标注实体的历史检索式;
对所述待标注实体的历史检索式进行意图词识别;
对识别到的意图词进行筛选过滤。
4.根据权利要求2或3所述的方法,其特征在于,获取各所述代表性实体或所述待标注实体的历史检索式包括:
根据检索日志,从所述代表性实体或所述待标注实体对应的多个检索词中确定热门检索词,作为所述代表性实体的实体词;
获取与各所述实体词属于相同主题且处于相同会话中的所有检索式,作为历史检索式。
5.根据权利要求3所述的方法,其特征在于,对识别到的意图词进行筛选过滤包括下述至少一项:
按照词汇黑名单对识别到的意图词进行筛选过滤;
根据实体知识图谱中记录的实体属性,对所述实体词和意图词进行识别,将对应至非所述待标注实体的实体词和意图词过滤掉。
6.根据权利要求1所述的方法,其特征在于,根据所述领域意图体系中的意图词的层次关联关系,构建所述待标注实体的识别到的意图词之间的层次关联关系包括:
将所述待标注实体的意图词,与所述待标注实体所属领域的领域意图体系中的意图词进行匹配;
将实体的意图词与所匹配的领域的意图词之间建立映射关系;
基于所述映射关系,将所匹配的领域的意图词之间的层次关联关系,继承为所述实体的意图词之间的层次关联关系。
7.根据权利要求6所述的方法,其特征在于,将所述待标注实体的意图词,与所述待标注实体所属领域的领域意图体系中的意图词进行匹配包括:
针对所述待标注实体的实体词和意图词的实体意图二元组,获取检索结果点击集合;
针对所述待标注实体的实体词和待匹配的所述领域意图体系中意图词的领域意图二元组,获取检索结果点击集合;
比对两个所述检索结果点击集合的相似度;
根据所述相似度确定所述实体的意图词和待匹配的领域的意图词之间的匹配结果。
8.根据权利要求6或7所述的方法,其特征在于,将所述待标注实体的意图词,与所述待标注实体所属领域的领域意图体系中的意图词进行匹配包括:
对所述实体的意图词进...
【专利技术属性】
技术研发人员:王灿,朱嘉琪,许超,卢佳俊,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。