【技术实现步骤摘要】
一种脚本生成方法与装置
本申请涉及计算机
,尤其涉及一种脚本生成方法与装置。
技术介绍
在现有技术中,由于网络爬虫可以抓取网页中的文本内容,目前被广泛的应用于搜索、数据挖掘等领域中。网络爬虫可以抓取网页中的全部内容,也可以抓取网页中的部分内容。目前,若要利用网络爬虫去抓取目标网页中的目标内容,工作人员需先编写抓取目标内容的脚本,网络爬虫才能够根据该脚本,抓取到目标内容。例如,若现在想要利用网络爬虫抓取如图1中所示的网页中的商品的价格信息,即“价钱:$149.99”。那么,工作人员便要通过浏览器访问相应的网页,然后在该网页对应的网页代码中查找“价钱:$149.99”对应的网页代码,即“价钱:$149.99”对应的最小的文档对象模型(DocumentObjectModel,dom)树。其中,“价钱:$149.99”对应的最小的dom树如下所示:<divid="kfs_family_16"class="kfs-inner-containerkfs-selected"style="width:20%;left:40%;background-image:url( ...
【技术保护点】
一种脚本生成方法,其特征在于,所述方法包括:确定用户在显示的网页中选定的网页内容;根据确定的网页内容,确定所述网页内容对应的网页代码;根据所述网页代码,生成抓取脚本。
【技术特征摘要】
1.一种脚本生成方法,其特征在于,所述方法包括:确定用户在显示的网页中选定的网页内容;根据确定的网页内容,确定所述网页内容对应的网页代码;根据所述网页代码,生成抓取脚本。2.如权利要求1所述的方法,其特征在于,确定用户在显示的网页中选定的网页内容之前,所述方法还包括:将预设的第一脚本嵌入到所述网页的网页代码中;其中,所述第一脚本用于提供在所述网页中选定网页内容的功能,所述第一脚本包括层叠样式表CSS脚本。3.如权利要求1所述的方法,其特征在于,根据确定的网页内容,确定所述网页内容对应的网页代码之前,所述方法还包括:将预设的第二脚本嵌入到所述网页的网页代码中,所述第二脚本包括JS脚本;根据确定的网页内容,确定所述网页内容对应的网页代码,具体包括:根据确定的网页内容,通过所述第二脚本,确定所述网页内容对应的网页代码。4.如权利要求1所述的方法,其特征在于,确定所述网页内容对应的网页代码,具体包括:在所述网页的网页代码中,确定所述网页内容对应的最小的文档对象模型dom树;在所述最小的dom树中,确定所述网页内容对应的超文本标记语言HTML属性值。5.如权利要求4所述的方法,其特征在于,根据所述网页代码,生成脚本,具体包括:将确定出的所述HTML属性值添加到预设的脚本生成模板中,生成抓取脚本,所述抓取脚本用于抓取与所述HTML属性值相匹配的网页内容。6.如权利要求5所述的方法,其特征在于,所述方法还包括:将所述抓取脚本以及网页代码发送给解析引擎,通过解析引擎,抓取相应的网页内容。7.一种脚本...
【专利技术属性】
技术研发人员:孙宇,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:开曼群岛,KY
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。