一种电商平台中利用自动结构化爬虫搜索的方法技术

技术编号:26730738 阅读:21 留言:0更新日期:2020-12-15 14:31
本发明专利技术公开了一种电商平台中利用自动结构化爬虫搜索的方法,包括如下步骤:S1.确定搜索主题A,确定链接集合B,储存链接集合B,并将链接集合B放入缓存队列;S2.分别确定链接集合B中每个链接打开网页的类型C,如果是静态网页将该链接标记C=0,如果是动态网页将该链接标记C=1;S3.采用特定的策略抓取链接bk,获取链接bk包含的网页信息;S4.保存抓取的链接bk及链接bk包含的网页信息;本发明专利技术基于互联网对电商平台大数据进行整理收集,实现数据的快速搜索,解决现有技术中电商平台搜索、采集数据不方便的技术问题。

【技术实现步骤摘要】
一种电商平台中利用自动结构化爬虫搜索的方法
本专利技术涉及互联网
领域,尤其涉及一种电商平台中利用自动结构化爬虫搜索的方法。
技术介绍
现在,互联网上的信息很多。整个internet互联网就像一张庞大而有向的蜘蛛网,每个网页就像蜘蛛网中的节点,网页相互有指向其他网页的地址。所以当爬虫在抓取网页的时候,将会使用有向遍历的算法进行遍历。目前的电商平台,如京东、淘宝网、拼多多、苏宁易购等平台,当需要各项有价值的数据时,搜索和采集都比较麻烦。尤其是当利用某一个主题搜索采集信息时,步骤较为繁琐,频繁需要人工操作,无法自动化搜索采集信息。因此,有必要对现有技术改进以解决上述技术问题。
技术实现思路
有鉴于此,本专利技术的目的之一在于提供一种电商平台中利用自动结构化爬虫搜索的方法,解决了现有技术中搜索及采集电商平台上的数据不方便的技术问题。具体而言通过以下技术方案实现:本专利技术实施例的第一方面,提供了一种电商平台中利用自动结构化爬虫搜索的方法,包括如下步骤:S1.确定搜索主题A,确定链接集合B,B={b1,b2……bn},b1,b2……bn表示不同的链接,且b1,b2……bn均与搜索主题A相关,n>0,n为自然数,储存链接集合B,并将链接集合B放入缓存队列,将链接集合B放入缓存队列可以使系统运算过程更加迅速;S2.分别确定链接集合B中每个链接打开网页的类型C,网页的类型C分为静态网页和动态网页,如果是静态网页将该链接标记C=0,如果是动态网页将该链接标记C=1;S3.采用特定的策略抓取链接bk,获取链接bk包含的网页信息,确定抓取连接bk的策略的方法根据搜索主题A及用户的需求确定;S4.保存抓取的链接bk及链接bk包含的网页信息;所述步骤S3具体包括如下步骤:S31.如果标记bk的C=0,抓取链接bk的策略为根据SharkSearch算法和HITS算法抓取连接bk;S32.如果标记bk的C=1,抓取连接bk的策略为异步加载。进一步,所述步骤S32具体包括如下步骤:S321.判断链接bk是否加密,如果加密将链接bk标记为D=1,如果没有加密将链接bk标记为D=0;S322.根据链接bk是否加密对链接bk进行解析,获取链接bk包含的网页信息;所述步骤S322具体包括如下步骤:S3221.如果链接bk的标记为D=0,则直接通过解析器解析链接bk,获取链接bk包含的网页信息;S3222.如果链接bk的标记为D=1,则对链接bk进行模拟人工操作,模拟人工操作后如果获取了链接bk包含的网页信息则生成E=1信号,如果仍未获取链接bk包含的网页信息则生成E=0信号;S3223.如果生成E=0信号,则对链接bk进行嗅探操作,获取链接bk包含的网页信息。进一步,所述步骤S31具体包括:S311.根据SharkSearch算法计算链接bi包含的网页信息与搜索主题A的相关性得分SIMbi,根据HITS算法计算链接集合B中每个链接的Hub值Hubbi和Authority值Authoritybi,n≥i>0,m为自然数;S312.计算链接bi的综合值COMbi,COMbi=SIMbi+Hubbi+Authoritybi;S313.重复步骤S311、S312,直至分别计算出链接集合B中每个链接的综合值,生成综合值集合COM;S314.取综合值最大的m个链接,组成综合值最大链接集合BMAX,BMAX={bmax1,bmax2……bmaxm},BMAX∈B,n≥m>0;S315.用户从BMAX中按照用户自定义的规则中选择出链接bk,用户自定义的规则可以是用户随机的选择,也可以是用户根据自己的喜好的选择,也可以是用户根据BMAX中链接的排序作出的选择。进一步,所述步骤S315中,用户从BMAX中按照自定义的规则选择出链接bk的方式为从BMAX中选择综合值最大的连接bk,bk=MAX(BMAX),链接在BMAX中的排序方式为按照综合值的大小从大至小排列,在外接显示装置上显示的顺序也为优先显示综合值最大的链接。进一步,所述步骤S4还包括建立链接bk的索引,保存索引,用户以后再寻找bk时可以根据索引迅速的定位链接bk。进一步,所述电商平台中利用自动结构化爬虫搜索的方法,还包括步骤S5:重复步骤S1、S2、S3、S4,直至抓取j个链接,n≥j>0,j为自然数,即通过上述步骤可以获取并保存多个链接,用户可以获取多个链接中包含网页的信息。进一步,所述步骤S322中,当链接bk为React、AngularJS、vue搜索引擎时,自动将链接bk标记为D=1,自动确定链接bk为加密状态。进一步,所述步骤S1、S2、S3、S4均采用.net语言编写,.net语言简单,可以实现复杂的功能,而且占用内存小,运算效率高。本专利技术的积极有益的技术效果包括:利用爬虫自动搜索电商平台上的信息,可以方便的采集信息;通过对链接包含的网页进行分类,区分静态网页和动态网页,对两种类型的网页采用不同的搜索方式,实现电商平台在两种网页上信息的搜索和采集;采用.net语言编写整个系统,占用内存小,可以实现复杂的功能;本专利技术利用网络爬虫技术,通过自定义自动化的数据采集规则,批量采集电商品台上商品的规格参数、原价、成交价、运费、销量、店铺信息、客户评价、网址等信息,同时利用现有技术在实现免登陆、多目标爬取数据,针对爬取的数据进行了初步的筛选过滤,去掉无效信息,基于互联网模式对大规模数据整合采集进行快速收集整理;本专利技术的其他有益效果将结合下文具体实施例进行进一步的说明。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本专利技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。图1为本专利技术实施例所提供的一种流程图;图2为本专利技术实施例所提供的嗅探过程的结构图。具体实施方式实施例1:一种电商平台中利用自动结构化爬虫搜索的方法,如图1-2所示,包括如下步骤:S1.确定搜索主题A,确定链接集合B,B={b1,b2……bn},b1,b2……bn表示不同的链接,且b1,b2……bn均与搜索主题A相关,n>0,n为自然数,储存链接集合B,并将链接集合B放入缓存队列,将链接集合B放入缓存队列可以使系统运算过程更加迅速,据提前设计对应网页的分析算法,分析过滤掉一些与搜索主题A无关的链接,存储下有效链接且将其放入将要抓取的缓存队列中;S2.分别确定链接集合B中每个链接打开网页的类型C,网页的类型C分为静态网页和动态网页,如果是静态网页将该链接标记C=0,如果是动态网页将该链接标记C=1;S3.采用特定的策略抓取链接bk,根据一定的搜索策略从队列中选择下一步要抓取的网页URL,获取链本文档来自技高网...

【技术保护点】
1.一种电商平台中利用自动结构化爬虫搜索的方法,其特征在于,包括如下步骤:/nS1.确定搜索主题A,确定链接集合B,B={b1,b2……bn},b1,b2……bn表示不同的链接,且b1,b2……bn均与搜索主题A相关,n>0,n为自然数,储存链接集合B,并将链接集合B放入缓存队列;/nS2.分别确定链接集合B中每个链接打开网页的类型C,如果是静态网页将该链接标记C=0,如果是动态网页将该链接标记C=1;/nS3.采用特定的策略抓取链接bk,获取链接bk包含的网页信息;/nS4.保存抓取的链接bk及链接bk包含的网页信息;/n所述步骤S3具体包括如下步骤:/nS31.如果标记bk的C=0,抓取链接bk的策略为根据Shark Search算法和HITS算法抓取连接bk;/nS32.如果标记bk的C=1,抓取连接bk的策略为异步加载。/n

【技术特征摘要】
1.一种电商平台中利用自动结构化爬虫搜索的方法,其特征在于,包括如下步骤:
S1.确定搜索主题A,确定链接集合B,B={b1,b2……bn},b1,b2……bn表示不同的链接,且b1,b2……bn均与搜索主题A相关,n>0,n为自然数,储存链接集合B,并将链接集合B放入缓存队列;
S2.分别确定链接集合B中每个链接打开网页的类型C,如果是静态网页将该链接标记C=0,如果是动态网页将该链接标记C=1;
S3.采用特定的策略抓取链接bk,获取链接bk包含的网页信息;
S4.保存抓取的链接bk及链接bk包含的网页信息;
所述步骤S3具体包括如下步骤:
S31.如果标记bk的C=0,抓取链接bk的策略为根据SharkSearch算法和HITS算法抓取连接bk;
S32.如果标记bk的C=1,抓取连接bk的策略为异步加载。


2.如权利要求1所述的电商平台中利用自动结构化爬虫搜索的方法,其特征在于:所述步骤S32具体包括如下步骤:
S321.判断链接bk是否加密,如果加密将链接bk标记为D=1,如果没有加密将链接bk标记为D=0;
S322.根据链接bk是否加密对链接bk进行解析,获取链接bk包含的网页信息;
所述步骤S322具体包括如下步骤:
S3221.如果链接bk的标记为D=0,则直接通过解析器解析链接bk,获取链接bk包含的网页信息;
S3222.如果链接bk的标记为D=1,则对链接bk进行模拟人工操作,模拟人工操作后如果获取了链接bk包含的网页信息则生成E=1信号,如果仍未获取链接bk包含的网页信息则生成E=0信号;
S3223.如果生成E=0信号,则对链接bk进行嗅探操作,获取链接bk包含的网页信息。


3...

【专利技术属性】
技术研发人员:刘勇勤吴肖峻蓝文广邓铭武
申请(专利权)人:广东赛博威信息科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1