访问意图挖掘方法及装置制造方法及图纸

技术编号:23212833 阅读:29 留言:0更新日期:2020-01-31 21:53
本发明专利技术提出一种访问意图挖掘方法及装置,其中方法包括:获取用户在网站上的至少一个访问行为;其中包括:用户此次访问的第一个页面地址,和/或,用户此次访问所采用的检索词;根据页面地址和/或检索词,查询预设的意图库,获取页面地址对应的访问意图,和/或,检索词对应的访问意图;意图库中包括:各个页面地址对应的访问意图,以及各个检索词对应的访问意图;根据页面地址对应的访问意图,和/或,检索词对应的访问意图,确定用户的访问意图,从而能够直接根据用户的检索词和/或访问的页面地址,确定用户的访问意图,降低了访问意图挖掘的人工成本,且能够准确确定用户的访问意图,准确确定网站的意图分布,提高了访问意图挖掘的效率。

Methods and devices for mining access intention

【技术实现步骤摘要】
访问意图挖掘方法及装置
本专利技术涉及数据处理
,尤其涉及一种访问意图挖掘方法及装置。
技术介绍
目前的访问意图挖掘方法主要为,网站运营人员对每个网页进行主题标注,根据用户访问过的网页的主题来确定用户的访问意图。上述方法中,需要人员对网页进行人工标注,且用户打开的部分网页并不是用户想要浏览的网页,根据网页的主题,不能确定用户的访问意图的强烈程度,从而难以准确确定用户的到访意图,进而难以确定网站的意图分布,降低了访问意图挖掘的效率。
技术实现思路
本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本专利技术的第一个目的在于提出一种访问意图挖掘方法,用于解决现有技术中难以准确确定用户的访问意图的问题。本专利技术的第二个目的在于提出一种访问意图挖掘装置。本专利技术的第三个目的在于提出一种电子设备。本专利技术的第四个目的在于提出一种非临时性计算机可读存储介质。本专利技术的第五个目的在于提出一种计算机程序产品。为达上述目的,本专利技术第一方面实施例提出了一种访问意图本文档来自技高网...

【技术保护点】
1.一种访问意图挖掘方法,其特征在于,包括:/n获取用户在网站上的至少一个访问行为;所述访问行为中包括:用户此次访问的第一个页面地址,和/或,用户此次访问所采用的检索词;/n根据所述页面地址和/或所述检索词,查询预设的意图库,获取所述页面地址对应的访问意图,和/或,所述检索词对应的访问意图;所述意图库中包括:各个页面地址对应的访问意图,以及各个检索词对应的访问意图;/n根据所述页面地址对应的访问意图,和/或,所述检索词对应的访问意图,确定所述用户对所述网站的访问意图。/n

【技术特征摘要】
1.一种访问意图挖掘方法,其特征在于,包括:
获取用户在网站上的至少一个访问行为;所述访问行为中包括:用户此次访问的第一个页面地址,和/或,用户此次访问所采用的检索词;
根据所述页面地址和/或所述检索词,查询预设的意图库,获取所述页面地址对应的访问意图,和/或,所述检索词对应的访问意图;所述意图库中包括:各个页面地址对应的访问意图,以及各个检索词对应的访问意图;
根据所述页面地址对应的访问意图,和/或,所述检索词对应的访问意图,确定所述用户对所述网站的访问意图。


2.根据权利要求1所述的方法,其特征在于,还包括:
获取预设历史时间段内所述用户在所述网站上的检索行为;所述检索行为包括:检索词与目标页面地址的对应关系;所述目标页面地址,为所述用户在页面上输入所述检索词后所打开的页面的地址;
针对所述检索行为,获取所述检索行为中的所有检索词,从所有检索词中提取意图词;
针对每个目标页面地址,获取与所述目标页面地址对应的至少一个检索词,从所述至少一个检索词中提取关键词;
在存在与所述关键词匹配的意图词时,将所述关键词确定为所述目标页面地址对应的访问意图,以及将所述关键词确定为所述至少一个检索词对应的访问意图,生成所述意图库。


3.根据权利要求2所述的方法,其特征在于,所述从所有检索词中提取意图词,包括:
针对所有检索词中的每个检索词,获取所述检索词的相关信息;所述相关信息包括以下信息中的任意一个或者多个:词频、词性、词长度;
根据所述检索词的相关信息,确定所述检索词是否为意图词。


4.根据权利要求2所述的方法,其特征在于,所述生成所述意图库之后,还包括:
针对每个检索词与访问意图的对应关系,获取采用所述检索词去搜索与所述访问意图对应的页面地址的用户数量;
对对应的用户数量小于预设数量阈值的对应关系进行删除处理;
针对每个访问意图,获取所述访问意图对应的至少一个检索词;
获取所述至少一个检索词与意图词之间的最大相似度;
在所述至少一个检索词与意图词之间的最大相似度不满足预设相似度条件时,删除所述访问意图与所述至少一个检索词的对应关系。


5.根据权利要求2或3所述的方法,其特征在于,所述生成所述意图库之后,还包括:
获取历史意图库;
针对所述历史意图库中的任意一个检索词与访问意图的历史对应关系,判断所述意图库中是否存在与所述历史对应关系检索词相同,和/或,访问意图相同的对应关系;
若存在与所述历史对应关系检索词相同,且访问意图不同的第一对应关系,则判断所述历史对应关系中的访问意图与所述第一对应关系中的访问意图是否存在包含与被包含关系;
若存在包含与被包含关系,则选择其中一个访问意图作为所述第一对应关系中更新后的访问意图;
若所述意图库中不存在所述第一对应关系,且不存在与所述历史对应关系检索词相同,且访问意图相同的第二对应关系,则将所述历史对应关系添加到所述意图库中。


6.根据权利要求1所述的方法,其特征在于,所述根据所述页面地址对应的访问意图,和/或,所述检索词对应的访问意图,确定所述用户对所述网站的访问意图,包括:
根据所述页面地址对应的访问意图,和/或,所述检索词对应的访问意图,统计各个访问意图的数量;
将对应的数量满足预设意图数量阈值的访问意图,确定为所述用户对所述网站的访问意图。


7.一种访问意图挖掘装置,其特征在于,包括:
获取模块,用于获取用户在网站上的至少一个访问行为;所述访问行为中包括:用户此次访问的第一个页面地址,和/或,用户此次访问所采用的检索词;
查询模块,用于根据所述页面地址和/或所述检索词,查询预设的意图库,获取所述页面地址对应的访问意图,和/或,所述检索词对应的访问意图;所述意图库中包括:各个页面地...

【专利技术属性】
技术研发人员:沈璠王晓元马宇峰叶峻
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1