一种去重目标页面确定方法、装置、计算机设备及计算机可读存储介质制造方法及图纸

技术编号:31022404 阅读:22 留言:0更新日期:2021-11-30 03:15
本发明专利技术涉及页面去重处理技术领域,公开了一种去重目标页面确定方法、装置、计算机设备及计算机可读存储介质。通过本发明专利技术创造,提供了一种基于猜试索引实现去重目标页面确定的新方案,即先针对所有已存页面,通过对应的关键字构建一个在输入关键字后可快速返回得到查找失败信息或高匹配度关键字的猜试索引,然后针对新增页面,通过构建对应的新增关键字和前述猜试索引,可以快速高效地查找到可能匹配的已存页面内容,并进行匹配对比得到确定结果,进而无需针对每个已存页面内容进行匹配对比,可以实现提升确定速度、缩短所需时间和降低所需计算资源的目的,利于提升用户搜索体验,便于实际应用和推广。便于实际应用和推广。便于实际应用和推广。

【技术实现步骤摘要】
一种去重目标页面确定方法、装置、计算机设备及计算机可读存储介质


[0001]本专利技术属于页面去重处理
,具体地涉及一种去重目标页面确定方法、装置、计算机设备及计算机可读存储介质。

技术介绍

[0002]在搜索引擎优化中,网站内部优化至关重要,其中需要注意的是搜索页面存在重复现象:同一篇文章经常会重复出现在同一个网站的不同网址上。搜索引擎并不喜欢这种重复性的内容,因为用户在搜索时,如果在前两页看到的都是来自不同网站的同一篇文章,用户体验就太差了;虽然都是内容相关的,但是搜索引擎希望只返回相同文章中的一篇,所以在进行索引前还需要识别和删除重复内容,这个过程就成为“优化去重”。
[0003]目前,在基于操作系统或虚拟机Hypervisor(又称虚拟机监视器,英语:virtual machine monitor,缩写为VMM,是用来建立与执行虚拟机器的软件、固件或硬件;被Hypervisor用来执行一个或多个虚拟机器的电脑称为主体机器,这些虚拟机器则称为客体机器;hypervisor提供虚拟的作业平台来执行客体操作系统,负责管理其他客体本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种去重目标页面确定方法,其特征在于,包括:针对所有已存页面中的各个已存页面,分别构建对应的关键字;针对所有的所述关键字,构建猜试索引,其中,所述猜试索引满足如下条件(A)~(C):(A)所有被索引关键字中的任意两被索引关键字不重复;(B)针对给定的一个输入关键字,若在所述所有被索引关键字中存在与其匹配的唯一被索引关键字,则通过所述猜试索引必然能够找到并返回该唯一被索引关键字;(C)针对给定的一个输入关键字,若在所述所有被索引关键字中不存在与其匹配的被索引关键字,则通过所述猜试索引返回查找失败信息或一个与该输入关键字不匹配的猜试关键字,其中,所述猜试关键字位于所述所有被索引关键字中,通过所述猜试索引返回所述猜试关键字的概率与返回所述查找失败信息的概率之比小于预设值;针对新增页面,构建对应的新增关键字,其中,所述新增关键字的构建方式与所述关键字的构建方式一致;将所述新增关键字作为一个给定的输入关键字,若通过所述猜试索引返回一个待验关键字,则根据所述待验关键字获取对应的页面内容;判断获取的页面内容是否与所述新增页面的页面内容匹配;若判定匹配,则将所述新增页面确定为去重目标页面。2.如权利要求1所述的方法,其特征在于,所述已存页面包含有已去重页面和/或活跃度低于预设阈值的非活跃页面。3.如权利要求1所述的方法,其特征在于,所述关键字包含有对应已存页面的页面哈希值/和页面内容。4.如权利要求1所述的方法,其特征在于,在针对新增页面,构建对应的新增关键字之后,所述方法还包括:将所述新增关键字作为一个给定的输入关键字,若通过所述猜试索引返回所述查找失败信息,则将所述新增页面确定为非去重目标页面。5.如权利要求1所述的方法,其特征在于,在判断获取的页面内容是否与所述新增页面的页面内容匹配之后,所述方法还包括:若判定不匹配,则将所述新增页面确定为非去重目标页面。6.如权利要求4或5所述的方法,其特征在于,在将所述新增页面确定为非去重目标页面之后,所述方法还包括:存储所述新增页面,并根据所述新增关键字,更新所述猜试索引。7.如权利要求1所述的方法,其特征在于,在将所述新增页面确定为去重目标页面之后,所述方法还包括:...

【专利技术属性】
技术研发人员:李珅
申请(专利权)人:南京展智科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1