【技术实现步骤摘要】
【国外来华专利技术】用于WEB爬取电子商务资源页面的机制
[0001]相关申请的交叉引用
[0002]本申请是2018年6月29日提交的美国专利申请No.16/023,616的继续申请并要求其优先权,通过引用将该美国专利申请整体并入本文。
[0003]本公开涉及电子商务资源页面,并且更具体地,本公开涉及用于web爬取(crawl)电子商务资源页面的更有效方式。
技术介绍
[0004]对于诸如web索引和更新web内容之类的某些任务,web爬取器是极其有用的工具。Web爬取器通常从要访问的统一资源定位符(URL)的列表开始,这些URL有时可以被称为“种子(seeds)”。随着web爬取器访问这些URL,它标识页面中的所有超链接并将它们添加到要访问的URL的列表,从而将该列表存储在称为“爬取链接工厂(crawl frontier)”的数据结构中。然而,使用web爬取器的一个主要缺点是对诸如结帐页面之类的某些电子商务网页的访问可能并不容易进行访问,因为为了访问结帐页面,相关联的购物车通常必须在里面具有诸如产品之类的物品。具有允许web爬取器访问电子商务网站的所有页面的机制将是有利的。
附图说明
[0005]图1根据实施例图示了web爬取器系统。
[0006]图2、图3和图4是根据实施例图示了图1的web爬取器程序的操作的流程图,所述操作包括:标识对应于平台的一个或多个x-path,并进一步利用该一个或多个x-path来访问结帐页面,并且确定是否需要更新结账页面上的一个或多个元素。
[0007]图 ...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.一种计算机系统,包括:一个或多个计算机可读存储器,所述一个或多个计算机可读存储器存储有程序指令;以及一个或多个处理器,所述一个或多个处理器被配置为执行所述程序指令以使所述系统执行包括以下步骤的操作:标识对应于第一资源的平台,其中,所述第一资源包括一个或多个资源页面;确定对应于所标识的平台的一个或多个x-path;利用所述一个或多个x-path中的至少第一x-path来将产品添加到与所述第一资源相关联的数字购物车;响应于将所述产品添加到与所述第一资源相关联的所述数字购物车,利用所述一个或多个x-path中的至少第二x-path来访问所述一个或多个资源页面中的第一资源页面,其中,所述第一资源页面是结帐页面;并且确定位于所述第一资源页面内的第一组一个或多个元素是否有效。2.根据权利要求1所述的计算机系统,所述操作还包括:响应于确定位于所述第一资源页面内的所述第一组一个或多个元素中的第一元素无效,更新元素数据库以指示所述第一元素无效。3.根据权利要求1所述的计算机系统,所述操作还包括:响应于确定位于所述第一资源页面内的所述第一组一个或多个元素中的第二元素有效,更新元素数据库以指示所述第二元素有效。4.根据权利要求1所述的计算机系统,其中,利用所述一个或多个x-path中的至少第一x-path来将所述产品添加到与所述第一资源相关联的所述数字购物车包括:利用所述一个或多个x-path中的第三x-path来访问产品列表页面;利用所述一个或多个x-path中的第四x-path来访问针对所述产品的产品页面;并且利用所述一个或多个x-path中的所述第一x-path来将所述产品添加到所述数字购物车。5.根据权利要求4所述的计算机系统,其中,利用所述一个或多个x-path中的至少第一x-path来将所述产品添加到与所述第一资源相关联的所述数字购物车包括:确定位于所述产品列表页面上的第二组一个或多个元素是否有效;并且确定位于所述产品页面上的第三组一个或多个元素是否有效。6.根据权利要求1所述的计算机系统,其中,利用所述一个或多个x-path中的至少第二x-path来访问所述第一资源页面包括:利用所述一个或多个x-path中的第五x-path来试图获得对所述第一资源页面的访问;响应于确定所述一个或多个x-path中的所述第五x-path不能被用来获得对所述第一资源页面的访问,更新x-path数据库以指示所述第五x-path不起作用。7.根据权利要求1所述的计算机系统,其中,确定对应于所标识的平台的所述一个或多个x-path包括:访问x-path数据库以确定对应于所标识的平台的所述一个或多个x-path。8.一种非暂态计算机可读介质,所述非暂态计算机可读介质存储有计算机可执行指令,所述计算机可执行指令响应于被一个或多个硬件处理器执行,而使所述一个或多个硬件处理器执行包括以下步骤的操作:
标识对应于第一资源的平台,其中,所述第一资源包括一个或多个资源页面;确定对应于所标识的平台的一个或多个x-path;利用所述一个或多个x-path中的第一组x-path来将产品添加到与所述一个或多个资源页面相关联的数字购物车,其中,利用所述第一组x-path来将所述产品添加到与所述一个或多个资源页面相关联的所述数字购物车包括:利用所述第一组x-path中的第一x-path来访问产品列表页面;利用所述第一组x-path中的第二x-path来访问针对产品的产品页面;利用所述第一组x-path中的第三x-path来将所述产品添加到所述数字购物车;响应于将所述产品添加到与所述第一资源相关联的所述数字购物车,利用所述一个或多个x-path中的第二组x-path来访问所述一个或多个资源页面中的第一资源页面,其中,所述第一资源页面是结帐页面;并且确定位于所述第一资源页面内的第一组一个或多个元素是否有效。9.根据权利要求8所述的非暂态计算机可读介质,所述操作还包括:响应于确定位于所述第一资源页面内的所述...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。