网络搜索处理方法、装置、电子设备制造方法及图纸

技术编号:24996266 阅读:12 留言:0更新日期:2020-07-24 17:58
本发明专利技术提供了一种网络搜索处理方法、装置、电子设备及计算机可读存储介质;方法包括:从网络中抓取内容并在搜索引擎的索引库中建立索引,其中所述索引包括抓取内容的关键字和链接;接收客户端针对访问内容的异常状态通知,并在所述索引库对应所述访问内容的索引中记录异常状态;接收搜索请求,并根据所述搜索请求携带的关键字查询所述索引库,得到与所述关键字匹配的多个内容所分别对应的链接;在所述多个内容中过滤掉被记录为异常状态的内容;基于过滤后的内容所分别对应的链接构造搜索结果,以响应所述搜索请求,通过本发明专利技术,能够优化异常内容的主动探测机制,以避免延时问题。

【技术实现步骤摘要】
网络搜索处理方法、装置、电子设备
本专利技术涉及网络技术,尤其涉及一种网络搜索处理方法、装置、电子设备及计算机可读存储介质。
技术介绍
随着互联网技术的发展,出现了各种各样的搜索引擎,通常搜索引擎接收用户发起的检索请求,搜索引擎会从存储有链接和链接对应的内容的快照缓存中检索包括关键字的第三方的内容,并将包括相关链接的快照内容呈现给用户。由于这些内容大多数是位于互联网上的第三方站点,其发生更新时并不会主动通知搜索引擎,而搜索引擎检索为了加快检索速度,会结合快照的内容进行检索,因此不会实时感知第三方站点的链接的可访问性可能存在问题,通常情况下,第三方站点删除了相关内容或者调整了内容的链接,会导致搜索引擎返回给用户的链接不再有效,影响了用户的有效访问的搜索体验。
技术实现思路
本专利技术实施例提供一种网络搜索处理方法、装置、电子设备及计算机可读存储介质,能够优化异常内容的主动探测机制,以避免延时问题。本专利技术实施例的技术方案是这样实现的:本专利技术实施例提供一种网络搜索处理方法,包括:从网络中抓取内容并在搜索引擎的索引库中建立索引,其中所述索引包括抓取内容的关键字和链接;接收客户端针对访问内容的异常状态通知,并在所述索引库对应所述访问内容的索引中记录异常状态;接收搜索请求,并根据所述搜索请求携带的关键字查询所述索引库,得到与所述关键字匹配的多个内容所分别对应的链接;在所述多个内容中过滤掉被记录为异常状态的内容;基于过滤后的内容所分别对应的链接构造搜索结果,以响应所述搜索请求。本专利技术实施例提供一种网络搜索处理装置,所述装置包括:索引建立模块,用于从网络中抓取内容并在搜索引擎的索引库中建立索引,其中所述索引包括抓取内容的关键字和链接;状态记录模块,用于接收客户端针对访问内容的异常状态通知,并在所述索引库对应所述访问内容的索引中记录异常状态;搜索查询模块,用于接收搜索请求,并根据所述搜索请求携带的关键字查询所述索引库,得到与所述关键字匹配的多个内容所分别对应的链接;内容过滤模块,用于在所述多个内容中过滤掉被记录为异常状态的内容;结果响应模块,用于基于过滤后的内容所分别对应的链接构造搜索结果,以响应所述搜索请求。在上述方案中,所述状态记录模块,还用于:针对所述访问内容的异常状态进行可靠性分析;当所述访问内容的异常状态满足可靠性条件时,在所述索引库对应所述访问内容的索引中记录异常状态。在上述方案中,所述状态记录模块,还用于:在窗口时间中,记录针对所述访问内容接收到的异常状态通知的累计次数,其中,所述累计次数与所述异常状态的可靠性正相关;当所述窗口时间内,所述记录的累计次数超出累计次数阈值时,确定所述访问内容的异常状态具备可靠性;当所述窗口时间到达时所述记录的累计次数未超出所述累计次数阈值时,将所述累计次数清零。在上述方案中,所述状态记录模块,还用于:向区块链网络发送针对所述访问内容的异常状态的提案响应,以使所述区块链网络中的多个共识节点对所述提案响应进行共识验证,当共识验证通过的共识节点的数目超过共识数目阈值时,确定所述访问内容的异常状态具备可靠性。其中,所述区块链网络中的共识节点的类型包括:所述访问内容的源站点;与所述客户端存在社交关系的客户端。在上述方案中,所述状态记录模块,还用于:基于所述客户端的用户活动数据构建用户特征;其中,所述用户活动数据包括以下至少之一:用户日活时间;用户月均发表内容数量;月均阅读内容数量;用户月均转发量;用户月均点赞量;用户月均评论量;基于神经网络模型预测所述用户活动特征对应的用户征信度;当预测得到的用户征信度超出征信度阈值时,确定所述访问内容的异常状态具备可靠性。在上述方案中,所述状态记录模块,还用于:当所述访问内容的异常状态不满足可靠性条件时,在独立于所述索引库的存储空间记录所访问内容的异常状态;所述在所述多个内容中过滤掉被记录为异常状态的内容,包括:从所述多个内容中过滤掉在所述索引库中被记录为异常状态的内容,并过滤掉在所述存储空间中被记录为异常状态的内容。在上述方案中,所述状态记录模块,还用于:从所述异常状态通知中获取网络响应的状态值,所述网络响应是针对所述访问内容的网络请求发送的;当所述状态值大于异常状态阈值时,确定所述访问内容处于永久失效状态;当所述状态值未超出所述异常状态阈值时,确定所述访问内容处于暂时失效状态。在上述方案中,所述状态记录模块,还用于:当所述客户端访问内容处于暂时失效状态时,从在所述索引库中记录所述访问内容的异常状态开始计时;当计时时长达到异常状态的超时时长时,在所述索引库中将所述访问内容的异常状态重新记录为正常状态;当所述访问内容处于永久失效状态时,删除所述索引库中对应所述访问内容的索引。在上述方案中,所述状态记录模块,还用于:当接收到内容提供方主动推送的异常状态通知,且所述异常状态通知表征所述内容提供方的至少部分内容处于暂时失效状态时,在所述索引库中对应暂时失效状态的内容的索引中记录异常状态;当接收到内容提供方主动推送的异常状态通知,且所述异常状态通知表征所述内容提供方的至少部分内容处于永久失效状态时,删除所述索引库中对应永久失效状态的内容的索引。在上述方案中,所述状态记录模块,还用于:针对所述异常状态开始计时;当计时时长超出异常状态的超时时长时,在所述索引库中将处于暂时失效状态的内容重新记录为正常状态。在上述方案中,所述装置还包括:计时模块,用于:确定处于暂时失效状态的内容所来自的内容提供方,确定与所述内容提供方的内容更新周期成正相关关系的时长,以作为所述内容提供方的内容处于暂时失效状态时的超时时长。在上述方案中,所述计时模块,还用于:针对处于暂时失效状态的内容,从对应的异常状态通知中获取网络响应的状态值,所述网络响应是针对所述暂时失效状态的内容的网络请求发送的;确定与所述状态值正相关的时长,以作为所述内容提供方的内容处于暂时失效状态时的超时时长。本专利技术实施例提供一种电子设备,包括:存储器,用于存储可执行指令;处理器,用于执行所述存储器中存储的可执行指令时,实现本专利技术实施例提供的网络搜索处理方法。本专利技术实施例提供一种计算机可读存储介质,存储有可执行指令,用于引起处理器执行时,实现本专利技术实施例提供的网络搜索处理方法。本专利技术实施例具有以下有益效果:通过客户端上报的异常状态来过滤掉搜索请求时的无效内容;从而,依赖客户端的数量优势和频繁访问内容的特点,能够克服主动探测和依赖网站通知异常状态的片面性和滞后性,在节约搜索后台资源的基础上,显著提升发现无效内容的实时性和全面性,保证了搜索结果的正确性。附图说明图1A是本专利技术实施例本文档来自技高网...

【技术保护点】
1.一种网络搜索处理方法,其特征在于,所述方法包括:/n从网络中抓取内容并在搜索引擎的索引库中建立索引,其中所述索引包括抓取内容的关键字和链接;/n接收客户端针对访问内容的异常状态通知,并在所述索引库对应所述访问内容的索引中记录异常状态;/n接收搜索请求,并根据所述搜索请求携带的关键字查询所述索引库,得到与所述关键字匹配的多个内容所分别对应的链接;/n在所述多个内容中过滤掉被记录为异常状态的内容;/n基于过滤后的内容所分别对应的链接构造搜索结果,以响应所述搜索请求。/n

【技术特征摘要】
1.一种网络搜索处理方法,其特征在于,所述方法包括:
从网络中抓取内容并在搜索引擎的索引库中建立索引,其中所述索引包括抓取内容的关键字和链接;
接收客户端针对访问内容的异常状态通知,并在所述索引库对应所述访问内容的索引中记录异常状态;
接收搜索请求,并根据所述搜索请求携带的关键字查询所述索引库,得到与所述关键字匹配的多个内容所分别对应的链接;
在所述多个内容中过滤掉被记录为异常状态的内容;
基于过滤后的内容所分别对应的链接构造搜索结果,以响应所述搜索请求。


2.根据权利要求1所述的方法,其特征在于,所述在所述索引库对应所述内容的索引中记录异常状态,包括:
针对所述访问内容的异常状态进行可靠性分析;
当所述访问内容的异常状态满足可靠性条件时,在所述索引库对应所述访问内容的索引中记录异常状态。


3.根据权利要求2所述的方法,其特征在于,所述针对所述访问内容的异常状态进行可靠性分析,包括:
在窗口时间中,记录针对所述访问内容接收到的异常状态通知的累计次数,其中,所述累计次数与所述异常状态的可靠性正相关;
当所述窗口时间内,所述记录的累计次数超出累计次数阈值时,确定所述访问内容的异常状态具备可靠性;
所述方法还包括:
当所述窗口时间到达时所述记录的累计次数未超出所述累计次数阈值时,将所述累计次数清零。


4.根据权利要求2所述的方法,其特征在于,所述针对所述访问内容的异常状态进行可靠性分析,包括:
向区块链网络发送针对所述访问内容的异常状态的提案响应,以使
所述区块链网络中的多个共识节点对所述提案响应进行共识验证,当共识验证通过的共识节点的数目超过共识数目阈值时,确定所述访问内容的异常状态具备可靠性;
其中,所述区块链网络中的共识节点的类型包括:所述访问内容的源站点;与所述客户端存在社交关系的客户端。


5.根据权利要求2所述的方法,其特征在于,所述针对所述问内容的异常状态进行可靠性分析,包括:
基于所述客户端的用户活动数据构建用户特征;
其中,所述用户活动数据包括以下至少之一:用户日活时间;用户月均发表内容数量;月均阅读内容数量;用户月均转发量;用户月均点赞量;用户月均评论量;
基于神经网络模型预测所述用户活动特征对应的用户征信度;
当预测得到的用户征信度超出征信度阈值时,确定所述访问内容的异常状态具备可靠性。


6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
当所述访问内容的异常状态不满足可靠性条件时,在独立于所述索引库的存储空间记录所访问内容的异常状态;
所述在所述多个内容中过滤掉被记录为异常状态的内容,包括:
从所述多个内容中过滤掉在所述索引库中被记录为异常状态的内容,并过滤掉在所述存储空间中被记录为异常状态的内容。


7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
从所述异常状态通知中获取网络响应的状态值,所述网络响应是针对所述访问内容的网络请求发送的;
当所述状态值大于异常状态阈值时,确定所述访问内容处于...

【专利技术属性】
技术研发人员:李辉
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1