【技术实现步骤摘要】
搜索串处理方法、装置、计算机可读介质及电子设备
本公开涉及信息搜索
,具体而言,涉及一种搜索串处理方法、搜索串处理装置、计算机可读介质及电子设备。
技术介绍
随着信息时代的快速发展,信息量大幅增加,为了提高信息获取效率,用户可以在各类网站中输入搜索词以获取相应的资源,例如在新闻网站可以输入一个或多个搜索词以获取相应的新闻内容。用户通常对最近出现的热门事件、热门人物比较感兴趣,在获取该事件、该人物的相关信息的同时还希望所获取的信息是最新的,对时效性有一定要求。目前对于时效性搜索串的识别是基于时效概率表实现的,该时效概率表是根据基于符合时新需求的搜索词归纳得到的时效类型和基于搜索日志中点击页面的发布时间统计得到的搜索词的时效性概率构建而成的,但由于时效概率表并未利用当下热点新闻这一先验知识,会导致延迟识别和部分无法识别的问题,另外时效概率表也会由于搜索日志中数据不准确而不完善,导致识别结果存在误差。需要说明的是,在上述
技术介绍
部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
技术实现思路
本公开的实施例提供了一种搜索串处理方法、搜索串处理装置、计算机可读介质及电子设备,进而至少在一定程度上可以提高搜索串的时效性识别效率和精准度。本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。根据本公开实施例的一个方面,提供了一种搜索串处理方法,包括:获取热点事件集,对所述热点事件集中各热点事件进行预处理 ...
【技术保护点】
1.一种搜索串处理方法,其特征在于,包括:/n获取热点事件集,对所述热点事件集中各热点事件进行预处理以获取与各所述热点事件对应的事件特征;/n根据所述热点事件及所述热点事件之间的距离构建第一图结构,并根据贪心算法对所述第一图结构中的节点进行分类,以获取包含目标事件的事件簇;/n根据所述事件簇中各热点事件的分词构建第二图结构,并基于所述第二图结构获取事件簇特征;/n基于所述事件特征和所述事件簇特征对搜索串的时效性进行识别。/n
【技术特征摘要】
1.一种搜索串处理方法,其特征在于,包括:
获取热点事件集,对所述热点事件集中各热点事件进行预处理以获取与各所述热点事件对应的事件特征;
根据所述热点事件及所述热点事件之间的距离构建第一图结构,并根据贪心算法对所述第一图结构中的节点进行分类,以获取包含目标事件的事件簇;
根据所述事件簇中各热点事件的分词构建第二图结构,并基于所述第二图结构获取事件簇特征;
基于所述事件特征和所述事件簇特征对搜索串的时效性进行识别。
2.根据权利要求1所述的方法,其特征在于,所述对所述热点事件集中各热点事件进行预处理以获取与各所述热点事件对应的事件特征,包括:
对各所述热点事件进行分词、命名实体识别及去除停用词处理,以获取所述事件特征。
3.根据权利要求1所述的方法,其特征在于,所述根据所述热点事件及所述热点事件之间的距离构建第一图结构,包括:
从所述热点事件集中确定包含所述目标事件的候选事件集,根据所述候选事件集中的事件和各所述事件之间的距离构建所述第一图结构。
4.根据权利要求3所述的方法,其特征在于,所述从所述热点事件集中确定包含所述目标事件的候选事件集,包括:
确定与所述热点事件集中各热点事件对应的事件标识,并对各所述热点事件进行预处理以获取与各所述热点事件对应的分词信息和分词特征;
根据所述分词特征对各所述热点事件对应的分词信息进行排序,根据排序后的分词信息确定各所述热点事件的关键词,并根据各所述热点事件的关键词构建与各所述热点事件对应的第一分词序列;
根据各所述热点事件的事件标识和所述第一分词序列构建第一倒排索引表,并根据所述目标事件对应的关键词和所述第一倒排索引表确定所述候选事件集。
5.根据权利要求4所述的方法,其特征在于,所述分词特征包括词性、实体词类型和逆向文档频率;
所述根据所述分词特征对各所述热点事件对应的分词信息进行排序,根据排序后的分词信息确定各所述热点事件的关键词,包括:
根据预设规则确定与所述词性对应的第一分值和与所述实体词类型对应的第二分值,将所述第一分值、所述第二分值和所述逆向文档频率相加,以获取第三分值;
根据所述第三分值由大到小对所述分词信息进行排序,并从排序后的分词信息中依次获取第一预设数量的分词信息作为所述关键词。
6.根据权利要求3所述的方法,其特征在于,所述目标事件为所述第一图结构中的初始节点;
所述根据贪心算法对所述第一图结构中的节点进行分类,以获取包含目标事件的事件簇,包括:
初始化一个关联容器和队列,将所述初始节点对应的事件标识置于所述队列的首位,并将所述初始节点对应的事件标识添加至所述关联容器中;
遍历所述第一图结构中的其它节点,将与所述初始节点的距离小于或等于第一距离阈值的第一节点对应的事件标识依次添加至所述队列中,并根据所述第一节点对应的事件标识更新所述关联容器;
初始化一个指针,根据所述指针的大小、所述队列和所述关联容器确定包含所述目标事件的事件簇。
7.根据权利要求6所述的方法,其特征在于,所述指针的大小与所述队列中事件标识的序号相对应;
所述根据所述指针的大小、所述队列和所述关联容器确定包含所述目标事件的事件簇,包括:
根据所述指针的大小在所述队列中确定基准事件标识,并计算所述基准事件标识对应的事件与所述第一图结构中其它节点对应的事件之间的距离;
当所述第一图结构中存在与所述基准事件标识所对应事件的距离小于或等于第二距离阈值的第二节点时,将所述第二节点对应的待选事件的事件标识和所述基准事件标识存储于字典容器中;
获取所述字典容器中与所述待选事件的事件标识对应的基准事件标识的数量,当所述数量大于或等于第二预设数量时,将所述待选事件的事件标识添加至所述队列中,并根据所述待选事件的事件标识更新所述关联容器;
在根据所述指针遍历所述队列中所有事件标识后,根据最终形成的所述队列中的事件...
【专利技术属性】
技术研发人员:黄婷,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。