用于爬取高度动态内容的对抗邦迪策略制造技术

技术编号:36065720 阅读:29 留言:0更新日期:2022-12-24 10:32
为商业报价页面生成重新爬取策略的技术,包括使用多种不同战略生成多策略方法。在一些实施方式中,每个策略是具有强化学习的K臂对抗邦迪算法的臂。而且,在一些实施方式中,多战略方法还使用机器学习算法来估计参数,诸如点击速率、曝光速率和价格改变的可能性,即,改变速率,这在传统方法中是假设为已知的。这在传统方法中是假设为已知的。这在传统方法中是假设为已知的。

【技术实现步骤摘要】
【国外来华专利技术】用于爬取高度动态内容的对抗邦迪策略


[0001]本描述涉及为高度动态的内容(诸如网页页面)生成网页重新爬取(recrawling)策略。

技术介绍

[0002]网页爬虫(crawler)包括被配置为系统地浏览互联网的互联网自动运行型木马(internet bots)。网页爬虫以要访问的URL的初始或种子列表开始。从那里,网页爬虫识别每个URL链接的网页页面,并将识别的网页页面存储在储存库中。为了识别相关网页页面,网页爬虫访问网页页面。但是一些网页页面随时间改变。为了确保内容是新鲜的,例如准确地反映改变,网页爬虫需要定期性地重新爬取或重新访问网页。

技术实现思路

[0003]实施方式提供了刷新战略(strategy),刷新战略被配置为向用户递送准确的信息,同时最小化对计算机资源的使用。例如,诸如报价页面的网页页面内容在浏览器内以价格向用户呈现产品。在互联网上呈现报价的动态属性意味着从报价页面获得的数据的储存库可能需要频繁更新。这样的更新是使用网页爬虫发生的,更具体地说,是通过网页爬虫对URL储存库的重新爬取操作发生的。每个重新爬取本文档来自技高网...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种计算机实现的方法,包括:从储存库接收表示多个实体的实体数据,所述多个实体中的每个具有相应的量的值,所述量的值在先前时刻处是准确的;针对多个实体中的每个,生成当前的时间处的多个参数的相关联的值,所述多个参数包括该实体的量的值的改变的可能性或来自储存库的该实体的访问速率中的至少一个;根据刷新策略,选择多个刷新战略中用于更新多个实体中的每个的量的值的刷新战略;根据选择的刷新战略,为多个实体中的每个生成相应刷新速率,多个报价中的每个实体的相应刷新速率是基于在包括先前时刻和当前时刻的时间序列处的多个参数的相关联的值的;基于多个实体的相应刷新速率对储存库执行刷新操作,所述刷新操作被配置为获得当前时刻处的实体的量的值;以及基于多个实体中的每个的先前时刻处的量的值和当前时刻处的量的值之间的差异来更新刷新策略。2.根据权利要求1所述的方法,其中,所述刷新策略包括权重分布,所述权重分布表示选择多个刷新战略中的每个的相应可能性。3.根据权利要求2所述的方法,其中,选择多个刷新战略中的刷新战略包括:在多个刷新战略上生成刷新战略的概率分布,所述概率分布包括对应于多个刷新战略中的每个的相应概率;以及根据概率分布执行对多个刷新战略的随机采样,以产生选择的刷新战略。4.根据权利要求3所述的方法,其中,生成概率分布包括:执行权重分布的权重的平均和多个刷新战略的刷新战略的数量的倒数,所述权重对应于刷新战略。5.根据任一前述权利要求所述的方法,其中,所述多个刷新战略包括统一战略、改变加权战略、访问加权战略和资源优化战略中的至少两个。6.根据任一前述权利要求所述的方法,其中,根据所述选择的刷新战略为多个实体中的每个生成相应刷新速率包括:针对多个参数中的参数,生成对应于所述参数的相应神经网络模型;以及使用对应于所述参数的神经网络模型来生成所述参数的相应刷新速率。7.根据权利要求6所述的方法,其中,多个参数中的所述参数是多个实体中的实体的量的值的改变的可能性,并且其中,生成对应于所述参数的神经网络模型包括:基于一组历史特征训练模型,该组历史特征包括先前时间段中的量改变频率和自最近期的改变以来的时间长度中的至少一个。8.根据权利要求6所述的方法,其中,多个参数中的所述参数是多个实体中的实体的访问速率,并且其中,生成对应于所述参数的神经网络模型包括:基于一组历史特征训练模型,该组历史特征包括先前时间段内的访问次数和先前时间段内的访问次数中的至少一个。
9.根据权利要求6所述的方法,其中,生成对应于所述参数的神经网络模型包括:基于元数据训练模型,所述元数据包括预测时间的一周中的一天、以及多个实体中的每个的特性中的至少一个。10.根据权利要求6所述的方法,其中:所述储存库包括多个报价网页页面;多个实体中的每个包括多个报价网页页面中的报价网页页面,所述报价网页页面展示产品报价;对实体的刷新操作包括从商家网站重新爬取网页页面;多个实体中的实体的多个参数包括报价网页页面的曝光速率和报价网页页面的点击速率;该实体包括该报价网页页面的品牌标识符、该报价网页页面的商家标识符和该报价网页页面的国家标识符,并且其中,生成对应于所述参数的神经网络模型包括:基于元数据训练模型,所述元数据包括品牌标识符、国家标识符、预测时间的一周中的一天、以及商家标识符中的至少一个。11.一种包括非暂时性存储介质的计算机程序产品,所述计算机程序产品包括代码,当由被配置为生成刷新策略的用户设备的处理电路执行时,所述方法包括:从储存库接收表示多个实体的实体数据,所述多个实体中的每个具...

【专利技术属性】
技术研发人员:M本德尔斯基P加伊达S诺维科夫MA纳约克S韩
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1