当前位置: 首页 > 专利查询>贝宝公司专利>正文

用于WEB爬取电子商务资源页面的机制制造技术

技术编号:27390708 阅读:54 留言:0更新日期:2021-02-21 13:58
一种计算机系统标识对应于第一资源的平台,其中在第一资源中包括一个或多个资源页面。所述计算机系统确定对应于所标识的平台的一个或多个x

【技术实现步骤摘要】
【国外来华专利技术】用于WEB爬取电子商务资源页面的机制
[0001]相关申请的交叉引用
[0002]本申请是2018年6月29日提交的美国专利申请No.16/023,616的继续申请并要求其优先权,通过引用将该美国专利申请整体并入本文。


[0003]本公开涉及电子商务资源页面,并且更具体地,本公开涉及用于web爬取(crawl)电子商务资源页面的更有效方式。

技术介绍

[0004]对于诸如web索引和更新web内容之类的某些任务,web爬取器是极其有用的工具。Web爬取器通常从要访问的统一资源定位符(URL)的列表开始,这些URL有时可以被称为“种子(seeds)”。随着web爬取器访问这些URL,它标识页面中的所有超链接并将它们添加到要访问的URL的列表,从而将该列表存储在称为“爬取链接工厂(crawl frontier)”的数据结构中。然而,使用web爬取器的一个主要缺点是对诸如结帐页面之类的某些电子商务网页的访问可能并不容易进行访问,因为为了访问结帐页面,相关联的购物车通常必须在里面具有诸如产品之类的物品。具有允许web爬取器访问电子商务网站的所有页面的机制将是有利的。
附图说明
[0005]图1根据实施例图示了web爬取器系统。
[0006]图2、图3和图4是根据实施例图示了图1的web爬取器程序的操作的流程图,所述操作包括:标识对应于平台的一个或多个x-path,并进一步利用该一个或多个x-path来访问结帐页面,并且确定是否需要更新结账页面上的一个或多个元素。
[0007]图5根据实施例图示了web爬取器112标识多个x-path以访问结账页面的特定示例。
[0008]图6是根据实施例描绘了图1的web爬取器系统的硬件组件的框图。
具体实施方式
[0009]本公开的实施例提供了一种系统、方法、以及程序产品。一种计算机系统标识对应于第一资源的平台,其中,第一资源包括一个或多个资源页面。该计算机系统确定对应于所标识的平台的一个或多个x-path。该计算机系统利用一个或多个x-path中的至少第一x-path来将产品添加到与第一资源相关联的数字购物车。响应于将产品添加到与第一资源相关联的数字购物车,该计算机系统利用一个或多个x-path中的至少第二x-path来访问一个或多个资源页面中的第一资源页面,其中,第一资源页面是结帐页面。该计算机系统确定位于第一资源页面内的一个或多个元素是否有效。
[0010]在示例实施例中,本公开描述了一种解决方案,该解决方案描述了标识对应于网
站的平台(诸如“Shopify”,Shopify是Shopify公司的注册商标),并且进一步标识对应于该平台的一个或多个x-path。在示例实施例中,本公开还描述了利用可以包括分别对应于下述各项的x-path的一组x-path以便验证网站上的一个或多个元素(诸如广告、横幅、用户界面元素等):产品列表页面、产品页面、“添加到购物车”按钮、以及结帐页面。如以上所陈述的,目前由于只有一旦已将诸如产品之类的物项添加到数字购物车才可访问结帐页面,所以web爬取器可能无法访问结帐页面。本公开通过描述一种自动化系统来描述对此问题的解决方案,在该自动化系统中web爬取器可以能够标识一组x-path,该组x-path可被用于将产品自动添加到数字购物车,然后进一步访问结帐页面,使得可检查结帐页面上的一个或多个元素的有效性。
[0011]此外,在另外的实施例中,本公开描述了一种用于对应用执行类似过程的解决方案。
[0012]现在将参考附图详细描述本公开的实施例。
[0013]图1根据实施例图示了web爬取器系统100。在示例实施例中,web爬取器系统100包括经由网络130互连的服务器110、web服务器120和web服务器140。
[0014]在示例实施例中,网络130是互联网,表示用于支持连接到互联网的设备之间进行的通信的网络和网关的全球集合。网络130可以包括例如有线、无线或光纤连接。在其他实施例中,可以将网络130实现为内部网、蓝牙网络、局域网(LAN)、或广域网(WAN)。一般而言,网络130可以为将支持计算设备之间(例如服务器110与web服务器140之间)进行的通信的连接和协议的任何组合。
[0015]在示例实施例中,web服务器120包括网站122。在示例实施例中,web服务器120可以为台式计算机、膝上型计算机、平板计算机、移动设备、手持设备、瘦客户端、或能够经由网络130向诸如服务器110之类的其他计算设备发送数据并从其接收数据的任何其他电子设备或计算系统。尽管未示出,但是可选地,web服务器120能够包括执行相同软件以共同地处理如由前端服务器和负载均衡器所分发的请求的服务器的集群。在示例实施例中,web服务器120是为支持驻留在web服务器120上的网站(诸如网站122)并且为支持与驻留在web服务器120上的网站有关的网络请求所优化的计算设备。关于各图更详细地描述了Web服务器120。
[0016]在示例实施例中,网站122是文件的集合,包括例如HTML文件、CSS文件、图像文件和JavaScript文件。网站122也可以包括诸如音频文件和视频文件之类的其他资源文件。关于各图更详细地描述了网站122。
[0017]在示例实施例中,web服务器140包括网站142。在示例实施例中,web服务器140可以为台式计算机、膝上型计算机、平板计算机、移动设备、手持设备、瘦客户端、或能够经由网络130从诸如服务器110之类的其他计算设备接收数据并向其发送数据的任何其他电子设备或计算系统。此外,在示例实施例中,web服务器140是为支持驻留在web服务器140上的网站(诸如网站142)并且为支持与驻留在web服务器140上的网站有关的网络请求所优化的计算设备。尽管未示出,但是可选地,web服务器140能够包括执行相同软件以共同地处理如由前端服务器和负载均衡器所分发的请求的服务器的集群。关于各图对web服务器140进行了更详细地描述。
[0018]在示例实施例中,网站142是文件的集合,包括例如HTML文件、CSS文件、图像文件
和JavaScript文件。网站142也可以包括诸如音频文件和视频文件之类的其他资源。关于各图对网站142进行了更详细地描述。
[0019]在示例实施例中,服务器110包括web爬取器112、浏览器114、元素数据库118、以及x-path数据库119。在示例实施例中,服务器110可以为台式计算机、膝上型计算机、平板计算机、移动设备、手持设备、瘦客户端、或能够经由网络130从诸如web服务器120之类的其他计算设备接收数据并向其发送数据的任何其他电子设备或计算系统。此外,在示例实施例中,服务器110是为支持驻留在服务器110上的程序和数据库(诸如web爬取器112和元素数据库118)所优化的计算设备。尽管未示出,但是可选地,服务器110能够包括执行相同软件以共同地处理如由前端服务器和负载均衡器所分发的请求的服务本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种计算机系统,包括:一个或多个计算机可读存储器,所述一个或多个计算机可读存储器存储有程序指令;以及一个或多个处理器,所述一个或多个处理器被配置为执行所述程序指令以使所述系统执行包括以下步骤的操作:标识对应于第一资源的平台,其中,所述第一资源包括一个或多个资源页面;确定对应于所标识的平台的一个或多个x-path;利用所述一个或多个x-path中的至少第一x-path来将产品添加到与所述第一资源相关联的数字购物车;响应于将所述产品添加到与所述第一资源相关联的所述数字购物车,利用所述一个或多个x-path中的至少第二x-path来访问所述一个或多个资源页面中的第一资源页面,其中,所述第一资源页面是结帐页面;并且确定位于所述第一资源页面内的第一组一个或多个元素是否有效。2.根据权利要求1所述的计算机系统,所述操作还包括:响应于确定位于所述第一资源页面内的所述第一组一个或多个元素中的第一元素无效,更新元素数据库以指示所述第一元素无效。3.根据权利要求1所述的计算机系统,所述操作还包括:响应于确定位于所述第一资源页面内的所述第一组一个或多个元素中的第二元素有效,更新元素数据库以指示所述第二元素有效。4.根据权利要求1所述的计算机系统,其中,利用所述一个或多个x-path中的至少第一x-path来将所述产品添加到与所述第一资源相关联的所述数字购物车包括:利用所述一个或多个x-path中的第三x-path来访问产品列表页面;利用所述一个或多个x-path中的第四x-path来访问针对所述产品的产品页面;并且利用所述一个或多个x-path中的所述第一x-path来将所述产品添加到所述数字购物车。5.根据权利要求4所述的计算机系统,其中,利用所述一个或多个x-path中的至少第一x-path来将所述产品添加到与所述第一资源相关联的所述数字购物车包括:确定位于所述产品列表页面上的第二组一个或多个元素是否有效;并且确定位于所述产品页面上的第三组一个或多个元素是否有效。6.根据权利要求1所述的计算机系统,其中,利用所述一个或多个x-path中的至少第二x-path来访问所述第一资源页面包括:利用所述一个或多个x-path中的第五x-path来试图获得对所述第一资源页面的访问;响应于确定所述一个或多个x-path中的所述第五x-path不能被用来获得对所述第一资源页面的访问,更新x-path数据库以指示所述第五x-path不起作用。7.根据权利要求1所述的计算机系统,其中,确定对应于所标识的平台的所述一个或多个x-path包括:访问x-path数据库以确定对应于所标识的平台的所述一个或多个x-path。8.一种非暂态计算机可读介质,所述非暂态计算机可读介质存储有计算机可执行指令,所述计算机可执行指令响应于被一个或多个硬件处理器执行,而使所述一个或多个硬件处理器执行包括以下步骤的操作:
标识对应于第一资源的平台,其中,所述第一资源包括一个或多个资源页面;确定对应于所标识的平台的一个或多个x-path;利用所述一个或多个x-path中的第一组x-path来将产品添加到与所述一个或多个资源页面相关联的数字购物车,其中,利用所述第一组x-path来将所述产品添加到与所述一个或多个资源页面相关联的所述数字购物车包括:利用所述第一组x-path中的第一x-path来访问产品列表页面;利用所述第一组x-path中的第二x-path来访问针对产品的产品页面;利用所述第一组x-path中的第三x-path来将所述产品添加到所述数字购物车;响应于将所述产品添加到与所述第一资源相关联的所述数字购物车,利用所述一个或多个x-path中的第二组x-path来访问所述一个或多个资源页面中的第一资源页面,其中,所述第一资源页面是结帐页面;并且确定位于所述第一资源页面内的第一组一个或多个元素是否有效。9.根据权利要求8所述的非暂态计算机可读介质,所述操作还包括:响应于确定位于所述第一资源页面内的所述...

【专利技术属性】
技术研发人员:奥尔加
申请(专利权)人:贝宝公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1