一种页面链接的投放和投放调整方法及系统技术方案

技术编号:18575932 阅读:20 留言:0更新日期:2018-08-01 10:56
本申请涉及网络技术,特别涉及一种页面链接的投放和投放调整方法及系统,用于提高新页面的被抓取率。该方法为:分别对引导页面和新页面进行聚簇,形成多个页面簇,在各个页面族之间基于内容相关性建立映射关系,保证新页面的链接只在建立映射的页面簇中投放,这样,有效提高了新页面与其他投放页面之间的相关性,搜索引擎在抓取到投放页面后,很容易基于内容相关性,在投放页面中进一步抓取到相关的新页面,从而可以大大提升新页面的被抓取率;同时,由于新页面和投放页面之间具有内容相关性,非常符合搜索引擎的相关规则,因此,新页面的被抓取权值会逐渐累积,从而可以在最短时间内从搜索引擎引入流量。

A method and system for adjusting and releasing page links

This application relates to network technology, in particular to a page link delivery and delivery adjustment method and system for improving the new page crawl rate. The method is: clustering the boot page and new page to form a number of page clusters, setting up a mapping relationship based on the content correlation among the different pages, ensuring that the link of the new page is only put in the mapped page cluster, so that the correlation between the new page and the other pages is effectively improved. After catching the page, the cable engine is easily based on the content correlation, and it can be further captured to the new page in the release page, which can greatly improve the capture rate of the new page. At the same time, because of the content correlation between the new page and the release page, it is very consistent with the relevant rules of the search engine. The weight of the new page will be gradually accumulated so that traffic can be introduced from the search engine in the shortest time.

【技术实现步骤摘要】
一种页面链接的投放和投放调整方法及系统
本申请涉及网络技术,特别涉及一种页面链接的投放和投放调整方法及系统。
技术介绍
目前,对于在搜索引擎优化网站(SearchEngineOptimizationWeb,SEOWeb)应用的新页面来说,其应用的核心目的就是:需要被各类通用搜索引擎快速收录并产生引流效果。为了达成上述目的,最关键的一步即是需要令新页面被搜索引擎采用网络爬虫所采集;其中,所谓网络爬虫,是一种按照一定规则自动抓取网络信息的程序或者脚本,各大搜索引擎都有各自专属的爬虫系统。现有技术下,为了加快页面被爬虫抓取的速度,一般都会采取以下两种方式:第一种方式为:将新页面的链接按照约定规则生成位置地图(sitemap)文件,并在各个搜索引擎的后台系统上传,后台系统会根据获得的sitemap文件解析出对应的链接并为其分配爬虫资源进行抓取。然而,采用第一种方式时,由于搜索引擎每天分别给各个链接的爬虫调度量有限,并且搜索引擎通常会将爬虫资源优先分配给从搜索引擎引入的流量高(即权重高)的链接,而新页面在搜索引擎中的初始权重一般较低,因此,会导致在上传sitemap文件后的一段时间内,新页面对应的链接分配到的爬虫资源较少,从而导致新页面的被抓取率偏低以及流量偏低。第二种方式为:在已经被搜索引擎收录且存在流量的原页面上部署新页面的链接,当搜索引擎采用爬虫技术再次抓取这些原页面,并更新收录的原页面的页面内容时,会分析得到原页面上新增加的链接,进而搜索引擎也可能会调度部分爬虫资源对这些新链接进行抓取。由于原页面在搜索引擎中的权重相对较高,理论上,对于新投放的新页面而言,采用这种方式可以比较快速地被收录且触发流量。然而,采用第二种方式时,原页面和新页面之间的投放关系是随机确定的,即原页面和新页面之间没有相关性,那么,当新页面的被收录量低于期望值时,管理人员能够参考的样本数目较少,从而也无法找到合适的方式解决上述问题因此,同样也会导致新页面的被抓取周期较长,即导致新页面的被抓取率偏低以及流量偏低。
技术实现思路
本申请实施例提供一种页面链接的投放和投放调整方法及系统,用以减小新页面在搜索引擎中的被抓取周期,提高新页面的被抓取率。本申请实施例提供的具体技术方案如下:一种页面链接的投放方法,包括:确定待投放的新页面簇以及对应每一个新页面簇设置的至少一个投放页面簇;分别将每一个新页面簇中的每一个新页面的链接,按照对应的投放期望数目投放至相应的至少一个投放页面簇中;其中,一个新页面簇对应的投放页面簇为与所述一个新页面簇存在内容相关性的引导页面簇或新页面簇,所述引导页面为已投放页面,新页面为未投放页面。可选的,确定待投放的新页面簇以及对应每一个新页面簇设置的至少一个投放页面簇之前,进一步包括:按照预设的聚簇规则将预设的引导页面集合划分为若干引导页面簇,以及将预设的新页面集合划分为若干新页面簇;基于内容相关性,分别对应每一个页面簇分别设置相应的至少一个投放页面簇。可选的,,按照预设的聚簇规则将预设的引导页面集合划分为若干引导页面簇,以及将预设的新页面集合划分为若干新页面簇,包括:采用预设的聚簇规则分别对预设的引导页面集合中的各个引导页面和预设的新页面集合中的各个新页面进行页面特征值提取;对提取出的各个页面特征值进行标签化处理,获得相应的页面标签;根据各个引导页面的页面标签,对各个引导页面进行聚簇,获得若干引导页面簇;根据各个新页面的页面标签,对各个引导页面进行聚簇,获得若干新页面簇。可选的,获得页面标签之后,在执行聚簇操作之前,进一步包括:对各个引导页面的页面标签进行归一化处理;以及,对各个新页面的页面标签进行归一化处理。可选的,基于内容相关性,对应每一个新页面簇分别设置相应的至少一个投放页面簇,包括:确定新页面簇的页面标签;筛选出与所述新页面簇的页面标签的关联度,达到设定关联度门限的其他页面标签;将筛选出的所述其他页面标签对应的引导页面簇或/和其他新页面簇,确定为所述新页面簇对应的投放页面簇。可选的,分别将每一个新页面簇中的每一个新页面的链接,按照对应的投放期望数目投放至相应的投放页面簇中,包括:循环执行以下操作,直到新页面簇中的新页面的链接投放完毕:选取一个新页面的链接;按照所述一个新页面的链接对应的投放期望数目,从相应的至少一个投放页面簇中选取相应数目的投放页面,其中,一个投放页面为引导页面或新页面;将所述所述一个新页面的链接分别投放至选取的每一个投放页面中。一种页面链接的投放调整方法,按照设定的任务周期投放新页面的链接,在每一个任务周期中,执行以下操作:确定待投放的新页面簇以及对应每一个新页面簇设置的至少一个投放页面簇,分别将每一个新页面簇中的每一个新页面的链接,按照对应的投放期望数目投放至相应的至少一个投放页面簇中;其中,一个新页面簇对应的投放页面簇为与所述一个新页面簇存在内容相关性的引导页面簇或新页面簇,所述引导页面为已投放页面,新页面为未投放页面;到达设定的投放检测时间点时,统计投放的各个新页面的链接的被抓取次数;针对被抓取次数已达到预设的抓取期望值的新页面的链接,确定不再投放,针对被抓取次数未达到预设的抓取期望值的新页面的链接,更新相应的投放期望数目。可选的,在开始执行所述任务周期之前,进一步包括:按照预设的聚簇规则将预设的引导页面集合划分为若干引导页面簇,以及将预设的新页面集合划分为若干新页面簇;基于内容相关性,分别对应每一个页面簇分别设置相应的至少一个投放页面簇。可选的,按照预设的聚簇规则将预设的引导页面集合划分为若干引导页面簇,以及将预设的新页面集合划分为若干新页面簇,包括:采用预设的聚簇规则分别对预设的引导页面集合中的各个引导页面和预设的新页面集合中的各个新页面进行页面特征值提取;对提取出的各个页面特征值进行标签化处理,获得相应的页面标签;根据各个引导页面的页面标签,对各个引导页面进行聚簇,获得若干引导页面簇;根据各个新页面的页面标签,对各个引导页面进行聚簇,获得若干新页面簇。可选的,获得页面标签之后,在执行聚簇操作之前,进一步包括:对各个引导页面的页面标签进行归一化处理;以及,对各个新页面的页面标签进行归一化处理。可选的,基于内容相关性,对应每一个新页面簇分别设置相应的至少一个投放页面簇,包括:确定新页面簇的页面标签;筛选出与所述新页面簇的页面标签的关联度,达到设定关联度门限的其他页面标签;将筛选出的所述其他页面标签对应的引导页面簇或/和其他新页面簇,确定为所述新页面簇对应的投放页面簇。可选的,分别将每一个新页面簇中的每一个新页面的链接,按照对应的投放期望数目投放至相应的投放页面簇中,包括:循环执行以下操作,直到新页面簇中的新页面的链接投放完毕:选取一个新页面的链接;按照所述一个新页面的链接对应的投放期望数目,从相应的至少一个投放页面簇中选取相应数目的投放页面,其中,一个投放页面为引导页面或新页面;将所述所述一个新页面的链接分别投放至选取的每一个投放页面中。可选的,针对被抓取次数未达到预设的抓取期望值的新页面的链接,更新相应的投放期望数目,包括:确定在上一个任务周期中,已投放的各个新页面的链接投放总数目,以及已投放的各个新页面在满足相应的抓取期望值时对应的概率和方差;根据所述链接投放总数目、所述概本文档来自技高网
...

【技术保护点】
1.一种页面链接的投放方法,其特征在于,包括:确定待投放的新页面簇以及对应每一个新页面簇设置的至少一个投放页面簇;分别将每一个新页面簇中的每一个新页面的链接,按照对应的投放期望数目投放至相应的至少一个投放页面簇中;其中,一个新页面簇对应的投放页面簇为与所述一个新页面簇存在内容相关性的引导页面簇或新页面簇,所述引导页面为已投放页面,新页面为未投放页面。

【技术特征摘要】
1.一种页面链接的投放方法,其特征在于,包括:确定待投放的新页面簇以及对应每一个新页面簇设置的至少一个投放页面簇;分别将每一个新页面簇中的每一个新页面的链接,按照对应的投放期望数目投放至相应的至少一个投放页面簇中;其中,一个新页面簇对应的投放页面簇为与所述一个新页面簇存在内容相关性的引导页面簇或新页面簇,所述引导页面为已投放页面,新页面为未投放页面。2.如权利要求1所述的方法,其特征在于,确定待投放的新页面簇以及对应每一个新页面簇设置的至少一个投放页面簇之前,进一步包括:按照预设的聚簇规则将预设的引导页面集合划分为若干引导页面簇,以及将预设的新页面集合划分为若干新页面簇;基于内容相关性,分别对应每一个页面簇分别设置相应的至少一个投放页面簇。3.如权利要求2所述的方法,其特征在于,按照预设的聚簇规则将预设的引导页面集合划分为若干引导页面簇,以及将预设的新页面集合划分为若干新页面簇,包括:采用预设的聚簇规则分别对预设的引导页面集合中的各个引导页面和预设的新页面集合中的各个新页面进行页面特征值提取;对提取出的各个页面特征值进行标签化处理,获得相应的页面标签;根据各个引导页面的页面标签,对各个引导页面进行聚簇,获得若干引导页面簇;根据各个新页面的页面标签,对各个引导页面进行聚簇,获得若干新页面簇。4.如权利要求3所述的方法,其特征在于,获得页面标签之后,在执行聚簇操作之前,进一步包括:对各个引导页面的页面标签进行归一化处理;以及,对各个新页面的页面标签进行归一化处理。5.如权利要求3所述的方法,其特征在于,基于内容相关性,对应每一个新页面簇分别设置相应的至少一个投放页面簇,包括:确定新页面簇的页面标签;筛选出与所述新页面簇的页面标签的关联度,达到设定关联度门限的其他页面标签;将筛选出的所述其他页面标签对应的引导页面簇或/和其他新页面簇,确定为所述新页面簇对应的投放页面簇。6.如权利要求1-5任一项所述的方法,其特征在于,分别将每一个新页面簇中的每一个新页面的链接,按照对应的投放期望数目投放至相应的投放页面簇中,包括:循环执行以下操作,直到新页面簇中的新页面的链接投放完毕:选取一个新页面的链接;按照所述一个新页面的链接对应的投放期望数目,从相应的至少一个投放页面簇中选取相应数目的投放页面,其中,一个投放页面为引导页面或新页面;将所述所述一个新页面的链接分别投放至选取的每一个投放页面中。7.一种页面链接的投放调整方法,其特征在于,按照设定的任务周期投放新页面的链接,在每一个任务周期中,执行以下操作:确定待投放的新页面簇以及对应每一个新页面簇设置的至少一个投放页面簇,分别将每一个新页面簇中的每一个新页面的链接,按照对应的投放期望数目投放至相应的至少一个投放页面簇中;其中,一个新页面簇对应的投放页面簇为与所述一个新页面簇存在内容相关性的引导页面簇或新页面簇,所述引导页面为已投放页面,新页面为未投放页面;到达设定的投放检测时间点时,统计投放的各个新页面的链接的被抓取次数;针对被抓取次数已达到预设的抓取期望值的新页面的链接,确定不再投放,针对被抓取次数未达到预设的抓取期望值的新页面的链接,更新相应的投放期望数目。8.如权利要求7所述的方法,其特征在于,在开始执行所述任务周期之前,进一步包括:按照预设的聚簇规则将预设的引导页面集合划分为若干引导页面簇,以及将预设的新页面集合划分为若干新页面簇;基于内容相关性,分别对应每一个页面簇分别设置相应的至少一个投放页面簇。9.如权利要求8所述的方法,其特征在于,按照预设的聚簇规则将预设的引导页面集合划分为若干引导页面簇,以及将预设的新页面集合划分为若干新页面簇,包括:采用预设的聚簇规则分别对预设的引导页面集合中的各个引导页面和预设的新页面集合中的各个新页面进行页面特征值提取;对提取出的各个页面特征值进行标签化处理,获得相应的页面标签;根据各个引导页面的页面标签,对各个引导页面进行聚簇,获得若干引导页面簇;根据各个新页面的页面标签,对各个引导页面进行聚簇,获得若干新页面簇。10.如权利要求9所述的方法,其特征在于,获得页面标签之后,在执行聚簇操作之前,进一步包括:对各个引导页面的页面标签进行归一化处理;以及,对各个新页面的页面标签进行归一化处理。11.如权利要求9所述的方法,其特征在于,基于内容相关性,对应每一个新页面簇分别设置相应的至少一个投放页面簇,包括:确定新页面簇的页面标签;筛选出与所述新页面簇的页面标签的关联度,达到设定关联度门限的其他页面标签;将筛选出的所述其他页面标签对应的引导页面簇或/和其他新页面簇,确定为所述新页面簇对应的投放页面簇。12.如权利要求7所述的方法,其特征在于,分别将每一个新页面簇中的每一个新页面的链接,按照对应的投放期望数目投放至相应的投放页面簇中,包括:循环执行以下操作,直到新页面簇中的新页面的链接投放完毕:选取一个新页面的链接;按照所述一个新页面的链接对应的投放期望数目,从相应的至少一个投放页面簇中选取相应数目的投放页面,其中,一个投放页面为引导页面或新页面;将所述所述一个新页面的链接分别投放至选取的每一个投放页面中。13.如权利要求7-12任一项所述的方法,其特征在于,针对被抓取次数未达到预设的抓取期望值的新页面的链接,更新相应的投放期望数目,包括:确定在上一个任务周期中,已投放的各个新页面的链接投放总数目,以及已投放的各个新页面在满足相应的抓取期望值时对应的概率和方差;根据所述链接投放总数目、所述概率和方差,以及预设的任务门限,计算页面增加比例,其中,所述任务门限表示:满足相应的抓取期望值的新页面的链接的期望累积数目,与初次投放的新页面的链接的总数目的比值;根据所述页面增加比例,计算得到下一个任务周期内,再次投放的各个新页面的链接所需要的新的平均投放期望数目。14.如权利要求7-12任一项所述的方法,其特征在于,确定满足以下条件中的一种或任意组合时,结束任务周期:被抓取次数达到预设的抓取期望值的链接的总数目,与链接投放总数目的比值达到设定的比值门限;或者,任务周期的执行总次数达到预设的执行次数门限;或者任务周期的总体执行时长达到设定的时长门限;或者,发生设定的异常事件。15.一种页面链接的投放系统,其特征在于,至少包括页面管理服务器,其中,页面管理服务器,用于确定待投放的新页面簇以及对应每一个新页面簇设置的至少一个投放页面簇,以及分别将每一个新页面簇中的每一个新页面的链接,按照...

【专利技术属性】
技术研发人员:刘庆周文军
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1