【技术实现步骤摘要】
一种去重目标页面确定方法、装置、计算机设备及计算机可读存储介质
[0001]本专利技术属于页面去重处理
,具体地涉及一种去重目标页面确定方法、装置、计算机设备及计算机可读存储介质。
技术介绍
[0002]在搜索引擎优化中,网站内部优化至关重要,其中需要注意的是搜索页面存在重复现象:同一篇文章经常会重复出现在同一个网站的不同网址上。搜索引擎并不喜欢这种重复性的内容,因为用户在搜索时,如果在前两页看到的都是来自不同网站的同一篇文章,用户体验就太差了;虽然都是内容相关的,但是搜索引擎希望只返回相同文章中的一篇,所以在进行索引前还需要识别和删除重复内容,这个过程就成为“优化去重”。
[0003]目前,在基于操作系统或虚拟机Hypervisor(又称虚拟机监视器,英语:virtual machine monitor,缩写为VMM,是用来建立与执行虚拟机器的软件、固件或硬件;被Hypervisor用来执行一个或多个虚拟机器的电脑称为主体机器,这些虚拟机器则称为客体机器;hypervisor提供虚拟的作业平台来执行客体操作系 ...
【技术保护点】
【技术特征摘要】
1.一种去重目标页面确定方法,其特征在于,包括:针对所有已存页面中的各个已存页面,分别构建对应的关键字;针对所有的所述关键字,构建猜试索引,其中,所述猜试索引满足如下条件(A)~(C):(A)所有被索引关键字中的任意两被索引关键字不重复;(B)针对给定的一个输入关键字,若在所述所有被索引关键字中存在与其匹配的唯一被索引关键字,则通过所述猜试索引必然能够找到并返回该唯一被索引关键字;(C)针对给定的一个输入关键字,若在所述所有被索引关键字中不存在与其匹配的被索引关键字,则通过所述猜试索引返回查找失败信息或一个与该输入关键字不匹配的猜试关键字,其中,所述猜试关键字位于所述所有被索引关键字中,通过所述猜试索引返回所述猜试关键字的概率与返回所述查找失败信息的概率之比小于预设值;针对新增页面,构建对应的新增关键字,其中,所述新增关键字的构建方式与所述关键字的构建方式一致;将所述新增关键字作为一个给定的输入关键字,若通过所述猜试索引返回一个待验关键字,则根据所述待验关键字获取对应的页面内容;判断获取的页面内容是否与所述新增页面的页面内容匹配;若判定匹配,则将所述新增页面确定为去重目标页面。2.如权利要求1所述的方法,其特征在于,所述已存页面包含有已去重页面和/或活跃度低于预设阈值的非活跃页面。3.如权利要求1所述的方法,其特征在于,所述关键字包含有对应已存页面的页面哈希值/和页面内容。4.如权利要求1所述的方法,其特征在于,在针对新增页面,构建对应的新增关键字之后,所述方法还包括:将所述新增关键字作为一个给定的输入关键字,若通过所述猜试索引返回所述查找失败信息,则将所述新增页面确定为非去重目标页面。5.如权利要求1所述的方法,其特征在于,在判断获取的页面内容是否与所述新增页面的页面内容匹配之后,所述方法还包括:若判定不匹配,则将所述新增页面确定为非去重目标页面。6.如权利要求4或5所述的方法,其特征在于,在将所述新增页面确定为非去重目标页面之后,所述方法还包括:存储所述新增页面,并根据所述新增关键字,更新所述猜试索引。7.如权利要求1所述的方法,其特征在于,在将所述新增页面确定为去重目标页面之后,所述方法还包括:...
【专利技术属性】
技术研发人员:李珅,
申请(专利权)人:南京展智科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。