网页元素采集方法、装置、终端与计算机可读存储介质制造方法及图纸

技术编号:17346342 阅读:38 留言:0更新日期:2018-02-25 11:34
一种网页元素采集方法,包括:获取用户输入的需要采集的网页的网址,并在内置浏览器中打开所述网页;获取用户点击的网页元素,显示与所述用户点击的网页元素对应的功能选项组;确定用户选择的功能选项;生成与所述网页元素对应的Xpath路径表达式,并生成与所述功能选项对应的执行步骤或执行与所述功能选项对应的操作。本发明专利技术提供的网页元素采集方法、网页元素采集装置、终端与计算机可读存储介质,采用Xpath路径表达式进行定位及面向用户的选择操作方式,降低非技术人员对于网页数据的迅速采集的实现门槛。

【技术实现步骤摘要】
网页元素采集方法、装置、终端与计算机可读存储介质
本专利技术属于网络通信
,具体地来说,是一种网页元素采集方法、装置、终端与计算机可读存储介质。
技术介绍
随着互联网的发展,特别是C2C电子商务的兴起,个人网站和网店大量出现。个人站主或个人店主为了快速的实现网站数据或者填补商品信息的填充,开始越来越多的通过采集其它网站类似信息来填充自己网站或者店铺。网页数据采集成为一种应用日益广泛的互联网技术。目前,网页数据采集的通用做法是,通过网络抓包的方式把整个网页的源码提取出来,然后分析网页源码,并通过正则表达式对网页源码进行匹配,最终得到想要的数据。这种做法依赖于网页源码与正则表达式,属于面向技术人员的实现方式。对于作为非技术人员的个人站长和个人店主而言,技术门槛很高,难以实现对于网页数据的迅速采集。
技术实现思路
为了克服现有技术的不足,本专利技术提供了一种网页元素采集方法、网页元素采集装置、终端与计算机可读存储介质,采用Xpath路径表达式进行定位及面向用户的选择操作方式,降低非技术人员对于网页数据的迅速采集的实现门槛。本专利技术的目的通过以下技术方案来实现:一种网页元素采集方法,包括本文档来自技高网...
网页元素采集方法、装置、终端与计算机可读存储介质

【技术保护点】
一种网页元素采集方法,其特征在于,包括:获取用户输入的需要采集的网页的网址,并在内置浏览器中打开所述网页;获取用户点击的网页元素,显示与所述用户点击的网页元素对应的功能选项组,所述功能选项组包括至少一个可供选择的功能选项;确定用户选择的功能选项;生成与所述网页元素对应的Xpath路径表达式,并生成与所述功能选项对应的执行步骤或执行与所述功能选项对应的操作,所述执行步骤用于被执行而实现对所述用户点击的网页元素的目标数据的采集,所述操作包括点击所述用户点击的网页元素和获取用户输入的文本。

【技术特征摘要】
1.一种网页元素采集方法,其特征在于,包括:获取用户输入的需要采集的网页的网址,并在内置浏览器中打开所述网页;获取用户点击的网页元素,显示与所述用户点击的网页元素对应的功能选项组,所述功能选项组包括至少一个可供选择的功能选项;确定用户选择的功能选项;生成与所述网页元素对应的Xpath路径表达式,并生成与所述功能选项对应的执行步骤或执行与所述功能选项对应的操作,所述执行步骤用于被执行而实现对所述用户点击的网页元素的目标数据的采集,所述操作包括点击所述用户点击的网页元素和获取用户输入的文本。2.根据权利要求1所述的网页元素采集方法,其特征在于,所述功能选项与所述用户点击的网页元素所包含的标签类型相适应,所述标签类型包括a标签、img标签、input标签和其他标签,所述功能选项包括抓取所述网页元素的文本、抓取所述网页元素的InnerHtml、抓取所述网页元素的OuterHtml、抓取所述网页元素的超链接、抓取所述网页元素的图片地址、抓取所述网页元素的Value值、循环遍历下拉选项、点击所述网页元素与输入文本中的一种或多种。3.根据权利要求2所述的网页元素采集方法,其特征在于,当所述用户点击的网页元素所包含的标签类型为a标签时,所述功能选项为所述抓取所述网页元素的文本、所述抓取所述网页元素的InnerHtml、所述抓取所述网页元素的OuterHtml、所述抓取所述网页元素的超链接与点击所述网页元素中的一种或多种。4.根据权利要求2所述的网页元素采集方法,其特征在于,当所述用户点击的网页元素所包含的标签类型为img标签时,所述功能选项为所述抓取该网页元素的OuterHtml、所述抓取该网页元素的图片地址与所述点击该网页元素中的一种或多种。5.根据权利要求2所述的网页元素采集方法,其特征在于,当所述用户点击的网页元素所包含的...

【专利技术属性】
技术研发人员:刘宝强肖云飞
申请(专利权)人:深圳视界信息技术有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1