事件发现方法、装置、设备和计算机可读存储介质制造方法及图纸

技术编号:22974766 阅读:67 留言:0更新日期:2019-12-31 23:27
本公开的实施例涉及一种用于发现事件的方法、装置、设备和计算机可读存储介质。该方法包括从预定时段内的搜索引擎日志中获取搜索关键字和与搜索关键字相对应的资源定位信息,资源定位信息与用户浏览行为相关联。该方法还包括基于搜索关键字和对应的资源定位信息,确定候选资源集合,候选资源集合包括与资源定位信息相关联的资源。之后,该方法进一步包括通过对候选资源集合执行聚类操作,确定目标资源集合,该目标资源集合与所发现的事件相关联。本公开的技术方案可以实现对待聚类的候选新闻资源的筛选,降低聚类操作的运算量和复杂程度,并且实现更为精确的聚类操作。

Event discovery methods, devices, devices, and computer-readable storage media

【技术实现步骤摘要】
事件发现方法、装置、设备和计算机可读存储介质
本公开总体上涉及互联网
,更具体地,涉及事件发现方法、装置、设备和计算机可读介质。
技术介绍
随着互联网技术的发展,互联网的信息一直在爆发式的增长,每个人都不得不面对信息过载的问题。当用户想要关注某个新闻事件、人物或者公司时,用户在搜索相关信息时不得不面对大量未经整理的信息或新闻资源。为了减少用户获取信息的时间成本,通常会将互联网中的大量信息或资源以“事件”为粒度进行组织,并将关注的新闻事件或人物等的最具时效性、最具代表性的进展和历史事件呈现给用户。在传统的事件发现方法中,事件发现主要是通过人工编辑或者计算机的聚类算法等来实现。由于人工编辑有效率低下的缺陷,故逐渐由聚类算法所取代。聚类算法是使用作为新闻资源的文本的相似性将多个新闻资源聚类为簇,每个簇作为一个新闻资源的集合代表一个事件。然而,目前的聚类算法的计算结果中通常会存在用户不关注的信息,不能直接满足用户需求。为此,用户投票操作被用于过滤用户不关注的信息。然而,此类处理方式仍然存在操作复杂且稳定性差的问题。r>专利技术本文档来自技高网...

【技术保护点】
1.一种用于发现事件的方法,包括:/n从预定时段内的搜索引擎日志中获取搜索关键字和与所述搜索关键字相对应的资源定位信息,所述资源定位信息与用户浏览行为相关联;/n基于所述搜索关键字和所述资源定位信息,确定候选资源集合,所述候选资源集合包括与所述资源定位信息相关联的资源;以及/n通过对所述候选资源集合执行聚类操作,确定目标资源集合,所述目标资源集合与所发现的事件相关联。/n

【技术特征摘要】
1.一种用于发现事件的方法,包括:
从预定时段内的搜索引擎日志中获取搜索关键字和与所述搜索关键字相对应的资源定位信息,所述资源定位信息与用户浏览行为相关联;
基于所述搜索关键字和所述资源定位信息,确定候选资源集合,所述候选资源集合包括与所述资源定位信息相关联的资源;以及
通过对所述候选资源集合执行聚类操作,确定目标资源集合,所述目标资源集合与所发现的事件相关联。


2.根据权利要求1所述的方法,其中对所述候选资源集合执行聚类操作包括:
获取所述候选资源集合中的资源的标题;以及
基于所述标题对所述候选资源集合执行聚类操作。


3.根据权利要求2所述的方法,其中基于所述标题对所述候选资源集合执行聚类操作包括:
确定所述候选资源集合的标题中的第一标题与第二标题的交集和并集;以及
响应于所述交集的字符长度与所述并集的字符长度的比大于阈值比值,将与所述第一标题和所述第二标题相对应的资源确定为同一类别。


4.根据权利要求2所述的方法,还包括:
从已执行聚类操作的所述候选资源集合的标题中确定所述事件的标识;以及
基于所述事件的标识,对所述已执行聚类操作的所述候选资源集合执行聚类操作。


5.根据权利要求4所述的方法,其中确定所述事件的标识包括:
基于已执行聚类操作的所述候选资源集合的标题中的被标点符号或空格分隔的字符长度最短的部分,确定所述事件的标识。


6.根据权利要求4所述的方法,其中对所述已执行聚类操作的所述候选资源集合执行聚类操作包括:
确定所述已执行聚类操作的所述候选资源集合的事件的标识中的第一标识与第二标识的交集和并集;以及
响应于交集的字符长度与所述并集的字符长度的比大于阈值比值,将与所述第一标识和所述第二标识相对应的资源确定为同一类别。


7.根据权利要求1所述的方法,其中确定所述候选资源集合包括:
响应于所述搜索关键字在所述预定时段内的搜索引擎日志中出现的次数高于阈值次数,将与对应于所述搜索关键字的所述资源定位信息相关联的所述资源确定为包含在所述候选资源集合中。


8.根据权利要求1所述的方法,还包括:
响应于接收到来自用户的与所述事件相关联的输入,将所述目标资源集合提供给所述用户。


9.一种用于发现事件的装置,包括:
日志信息获取模块,被配置为从预定时段内的搜索引擎日志中获取搜索关键字和与所述搜索关键字相对应的资源定位信息,所述资源定位信息与用户浏览行为相关联;
候选资源集合确定模块,被配置为基于所述搜索关键字和所述资源定位信息确定候选资源集合,所述候选资源集合包括与所述...

【专利技术属性】
技术研发人员:陈文浩陈伟娜陈玉光周辉郑宇宏
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1