搜索串处理方法、装置、计算机可读介质及电子设备制造方法及图纸

技术编号:26342624 阅读:30 留言:0更新日期:2020-11-13 20:36
本公开提供了一种搜索串处理方法、装置、计算机可读介质和电子设备,涉及信息搜索领域。方法包括:获取热点事件集,对所述热点事件集中各热点事件进行预处理以获取与各所述热点事件对应的事件特征;根据所述热点事件及所述热点事件之间的距离构建第一图结构,并根据贪心算法对所述第一图结构中的节点进行分类,以获取包含目标事件的事件簇;根据所述事件簇中各热点事件的分词构建第二图结构,并基于所述第二图结构获取事件簇特征;基于所述事件特征和所述事件簇特征对搜索串的时效性进行识别。本公开可以提高事件簇及事件簇特征的挖掘效率,提高搜索串的时效性识别效率和精准度。

【技术实现步骤摘要】
搜索串处理方法、装置、计算机可读介质及电子设备
本公开涉及信息搜索
,具体而言,涉及一种搜索串处理方法、搜索串处理装置、计算机可读介质及电子设备。
技术介绍
随着信息时代的快速发展,信息量大幅增加,为了提高信息获取效率,用户可以在各类网站中输入搜索词以获取相应的资源,例如在新闻网站可以输入一个或多个搜索词以获取相应的新闻内容。用户通常对最近出现的热门事件、热门人物比较感兴趣,在获取该事件、该人物的相关信息的同时还希望所获取的信息是最新的,对时效性有一定要求。目前对于时效性搜索串的识别是基于时效概率表实现的,该时效概率表是根据基于符合时新需求的搜索词归纳得到的时效类型和基于搜索日志中点击页面的发布时间统计得到的搜索词的时效性概率构建而成的,但由于时效概率表并未利用当下热点新闻这一先验知识,会导致延迟识别和部分无法识别的问题,另外时效概率表也会由于搜索日志中数据不准确而不完善,导致识别结果存在误差。需要说明的是,在上述
技术介绍
部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
技术实现思路
本公开的实施例提供了一种搜索串处理方法、搜索串处理装置、计算机可读介质及电子设备,进而至少在一定程度上可以提高搜索串的时效性识别效率和精准度。本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。根据本公开实施例的一个方面,提供了一种搜索串处理方法,包括:获取热点事件集,对所述热点事件集中各热点事件进行预处理以获取与各所述热点事件对应的事件特征;根据所述热点事件及所述热点事件之间的距离构建第一图结构,并根据贪心算法对所述第一图结构中的节点进行分类,以获取包含目标事件的事件簇;根据所述事件簇中各热点事件的分词构建第二图结构,并基于所述第二图结构获取事件簇特征;基于所述事件特征和所述事件簇特征对搜索串的时效性进行识别。根据本公开实施例的一个方面,提供了一种搜索串处理装置,包括:事件特征获取模块,用于获取热点事件集,对所述热点事件集中各热点事件进行预处理以获取与各所述热点事件对应的事件特征;事件簇获取模块,用于根据所述热点事件及所述热点事件之间的距离构建第一图结构,并根据贪心算法对所述第一图结构中的节点进行分类,以获取包含目标事件的事件簇;事件簇特征获取模块,用于根据所述事件簇中各热点事件的分词构建第二图结构,并基于所述第二图结构获取事件簇特征;时效性识别模块,用于基于所述事件特征和所述事件簇特征对搜索串的时效性进行识别。在本公开的一些实施例中,基于前述方案,所述事件特征获取模块配置为:对各所述热点事件进行分词、命名实体识别及去除停用词处理,以获取所述事件特征。在本公开的一些实施例中,基于前述方案,所述事件簇获取模块包括:图构建单元,用于从所述热点事件集中确定包含所述目标事件的候选事件集,根据所述候选事件集中的事件和各所述事件之间的距离构建所述第一图结构。在本公开的一些实施例中,基于前述方案,所述图构建单元包括:预处理单元,用于确定与所述热点事件集中各热点事件对应的事件标识,并对各所述热点事件进行预处理以获取与各所述热点事件对应的分词信息和分词特征;关键词获取单元,用于根据所述分词特征对各所述热点事件对应的分词信息进行排序,根据排序后的分词信息确定各所述热点事件的关键词,并根据各所述热点事件的关键词构建与各所述热点事件对应的第一分词序列;候选事件获取单元,用于根据各所述热点事件的事件标识和所述第一分词序列构建第一倒排索引表,并根据所述目标事件对应的关键词和所述第一倒排索引表确定所述候选事件集。在本公开的一些实施例中,所述分词特征包括词性、实体词类型和逆向文档频率;基于前述方案,所述关键词获取单元配置为:根据预设规则确定与所述词性对应的第一分值和与所述实体词类型对应的第二分值,将所述第一分值、所述第二分值和所述逆向文档频率相加,以获取第三分值;根据所述第三分值由大到小对所述分词信息进行排序,并从排序后的分词信息中依次获取第一预设数量的分词信息作为所述关键词。在本公开的一些实施例中,所述目标事件为所述第一图结构中的初始节点;基于前述方案,所述事件簇获取模块包括:第一处理单元,用于初始化一个关联容器和队列,将所述初始节点置于所述队列的首位,并将所述初始节点添加至所述关联容器中;第二处理单元,用于遍历所述第一图结构中的其它节点,将与所述初始节点的距离小于或等于第一距离阈值的第一节点对应的事件标识依次添加至所述队列中,并根据所述第一节点对应的事件标识更新所述关联容器;第三处理单元,用于初始化一个指针,根据所述指针的大小、所述队列和所述关联容器确定包含所述目标事件的事件簇。在本公开的一些实施例中,所述指针的大小与所述队列中事件标识的序号相对应;基于前述方案,所述第三处理单元配置为:根据所述指针的大小在所述队列中确定基准事件标识,并计算所述基准事件标识对应的事件与所述第一图结构中其它节点对应的事件之间的距离;当所述第一图结构中存在与所述基准事件标识所对应事件的距离小于或等于第二距离阈值的第二节点时,将所述第二节点对应的待选事件的事件标识和所述基准事件标识存储于字典容器中;获取所述字典容器中与所述待选事件的事件标识对应的基准事件标识的数量,当所述数量大于或等于第二预设数量时,将所述待选事件的事件标识添加至所述队列中,并根据所述待选事件的事件标识更新所述关联容器;在根据所述指针遍历所述队列中所有事件标识后,根据最终形成的所述队列中的事件标识所对应的事件形成所述事件簇。在本公开的一些实施例中,基于前述方案,所述事件簇特征获取模块包括:目标分词获取单元,用于对所述事件簇中的各个热点事件进行预处理,并根据预设词性从预处理的结果中获取目标分词;图结构构建单元,用于以所述目标分词为节点,在对应同一事件的目标分词之间构建边,根据所述节点和所述边构建所述第二图结构;事件簇特征确定单元,用于基于所述第二图结构迭代计算所述目标分词的权重,将所述目标分词的权重由大到小排序以获取第二分词序列,并根据所述第二分词序列确定所述事件簇特征。在本公开的一些实施例中,基于前述方案,所述事件簇特征确定单元配置为:将所述第二分词序列中权重大于或等于权重阈值的分词作为所述事件簇的关键词;将所述关键词对应的权重作为所述关键词在所述事件簇中的关键词时新度;根据所述关键词和所述关键词时新度形成所述事件簇特征。在本公开的一些实施例中,基于前述方案,所述时效性识别模块包括:搜索词获取单元,用于对所述搜索串进行预处理,以获取与所述搜索串对应的搜索词;相似度计算单元,用于获取所述搜索词和所述事件特征之间的相似度,判断所述相似度是否满足第一条件;时新概率计算单元,用于在所述相似度满足所述第一条件时,根据所述搜索词和所述事件簇特征获取所述搜索词的时新概率,并根据所述时新概率判断所述搜索串是否为时效性搜索串。在本公开的一些实施例中,基于前述方案,所述相似度计算单元配置为:根据所述事件特征对应的分词及事件标识构建第二倒排索引表;将所述搜本文档来自技高网...

【技术保护点】
1.一种搜索串处理方法,其特征在于,包括:/n获取热点事件集,对所述热点事件集中各热点事件进行预处理以获取与各所述热点事件对应的事件特征;/n根据所述热点事件及所述热点事件之间的距离构建第一图结构,并根据贪心算法对所述第一图结构中的节点进行分类,以获取包含目标事件的事件簇;/n根据所述事件簇中各热点事件的分词构建第二图结构,并基于所述第二图结构获取事件簇特征;/n基于所述事件特征和所述事件簇特征对搜索串的时效性进行识别。/n

【技术特征摘要】
1.一种搜索串处理方法,其特征在于,包括:
获取热点事件集,对所述热点事件集中各热点事件进行预处理以获取与各所述热点事件对应的事件特征;
根据所述热点事件及所述热点事件之间的距离构建第一图结构,并根据贪心算法对所述第一图结构中的节点进行分类,以获取包含目标事件的事件簇;
根据所述事件簇中各热点事件的分词构建第二图结构,并基于所述第二图结构获取事件簇特征;
基于所述事件特征和所述事件簇特征对搜索串的时效性进行识别。


2.根据权利要求1所述的方法,其特征在于,所述对所述热点事件集中各热点事件进行预处理以获取与各所述热点事件对应的事件特征,包括:
对各所述热点事件进行分词、命名实体识别及去除停用词处理,以获取所述事件特征。


3.根据权利要求1所述的方法,其特征在于,所述根据所述热点事件及所述热点事件之间的距离构建第一图结构,包括:
从所述热点事件集中确定包含所述目标事件的候选事件集,根据所述候选事件集中的事件和各所述事件之间的距离构建所述第一图结构。


4.根据权利要求3所述的方法,其特征在于,所述从所述热点事件集中确定包含所述目标事件的候选事件集,包括:
确定与所述热点事件集中各热点事件对应的事件标识,并对各所述热点事件进行预处理以获取与各所述热点事件对应的分词信息和分词特征;
根据所述分词特征对各所述热点事件对应的分词信息进行排序,根据排序后的分词信息确定各所述热点事件的关键词,并根据各所述热点事件的关键词构建与各所述热点事件对应的第一分词序列;
根据各所述热点事件的事件标识和所述第一分词序列构建第一倒排索引表,并根据所述目标事件对应的关键词和所述第一倒排索引表确定所述候选事件集。


5.根据权利要求4所述的方法,其特征在于,所述分词特征包括词性、实体词类型和逆向文档频率;
所述根据所述分词特征对各所述热点事件对应的分词信息进行排序,根据排序后的分词信息确定各所述热点事件的关键词,包括:
根据预设规则确定与所述词性对应的第一分值和与所述实体词类型对应的第二分值,将所述第一分值、所述第二分值和所述逆向文档频率相加,以获取第三分值;
根据所述第三分值由大到小对所述分词信息进行排序,并从排序后的分词信息中依次获取第一预设数量的分词信息作为所述关键词。


6.根据权利要求3所述的方法,其特征在于,所述目标事件为所述第一图结构中的初始节点;
所述根据贪心算法对所述第一图结构中的节点进行分类,以获取包含目标事件的事件簇,包括:
初始化一个关联容器和队列,将所述初始节点对应的事件标识置于所述队列的首位,并将所述初始节点对应的事件标识添加至所述关联容器中;
遍历所述第一图结构中的其它节点,将与所述初始节点的距离小于或等于第一距离阈值的第一节点对应的事件标识依次添加至所述队列中,并根据所述第一节点对应的事件标识更新所述关联容器;
初始化一个指针,根据所述指针的大小、所述队列和所述关联容器确定包含所述目标事件的事件簇。


7.根据权利要求6所述的方法,其特征在于,所述指针的大小与所述队列中事件标识的序号相对应;
所述根据所述指针的大小、所述队列和所述关联容器确定包含所述目标事件的事件簇,包括:
根据所述指针的大小在所述队列中确定基准事件标识,并计算所述基准事件标识对应的事件与所述第一图结构中其它节点对应的事件之间的距离;
当所述第一图结构中存在与所述基准事件标识所对应事件的距离小于或等于第二距离阈值的第二节点时,将所述第二节点对应的待选事件的事件标识和所述基准事件标识存储于字典容器中;
获取所述字典容器中与所述待选事件的事件标识对应的基准事件标识的数量,当所述数量大于或等于第二预设数量时,将所述待选事件的事件标识添加至所述队列中,并根据所述待选事件的事件标识更新所述关联容器;
在根据所述指针遍历所述队列中所有事件标识后,根据最终形成的所述队列中的事件...

【专利技术属性】
技术研发人员:黄婷
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1