网上信息抓取方法及系统技术方案

技术编号:15691108 阅读:87 留言:0更新日期:2017-06-24 04:02
本发明专利技术公开了一种网上信息抓取方法,所述方法包括如下步骤:服务器接收用户通过HTTP发送的信息抓取请求;服务器从网络中抓取与该抓取请求对应的信息;服务器依据该抓取请求对应的信息内包含的图片信息确定该信息的处理策略。本发明专利技术提供的技术方案具有安全性高的优点。

Method and system for crawling information on the Internet

The invention discloses a network information capture method, and the method comprises the following steps: the server receives messages sent via HTTP to grab the requesting user from the network server; grasping with the capture request corresponding information; determining the information processing strategies including the server according to the request information corresponding to the capture image information. The technical proposal provided by the invention has the advantages of high safety.

【技术实现步骤摘要】
网上信息抓取方法及系统
本专利技术涉及数据处理领域,尤其涉及一种网上信息抓取方法及系统。
技术介绍
网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。网络爬虫实际是一种网络信息抓取的应用程序,现有的网络爬虫无法依据抓取的信息判断其处理策略,导致现有的网络爬虫可能使得用户侵犯别人的权利,安全性低。
技术实现思路
本申请提供一种网上信息抓取方法。其解决现有技术的技术方案侵犯别人的权利,安全性低的缺点。一方面,提供一种网上信息抓取方法,所述方法包括如下步骤:网上信息抓取方法,所述方法包括如下步骤:服务器接收用户通过HTTP发送的信息抓取请求;服务器从网络中抓取与该抓取请求对应的信息;服务器依据该抓取请求对应的信息内包含的图片信息确定该信息的处理策略。可选的,所述方法还包括:服务器如所述信息包含图片信息,则将该信息存储,如所述信息不包含图片信息,则将该信息分享。可选的,所述方法还包括:服务器通过社交软件或即时通信软件对所述信息分享。第二方面,提供一种网上信息抓取系统,所述系统包括:获取单元,用于接收用户通过HTTP发送的信息抓取请求;处理单元,用于从网络中抓取与该抓取请求对应的信息;依据该抓取请求对应的信息内包含的图片信息确定该信息的处理策略。可选的,所述系统还包括:处理单元,用于服务器如所述信息包含图片信息,则将该信息存储,如所述信息不包含图片信息,则将该信息分享。可选的,所述系统还包括:处理单元,用于通过社交软件或即时通信软件对所述信息分享。第三方面,提供一种服务器,包括:处理器、无线收发器、存储器和总线,所述处理器、无线收发器、存储器通过总线连接,所述无线收发器,用于接收用户通过HTTP发送的信息抓取请求;所述处理器,用于从网络中抓取与该抓取请求对应的信息;依据该抓取请求对应的信息内包含的图片信息确定该信息的处理策略。可选的,所述处理器,用于服务器如所述信息包含图片信息,则将该信息存储,如所述信息不包含图片信息,则将该信息分享。可选的,所述处理器,用于通过社交软件或即时通信软件对所述信息分享。本专利技术提供的技术方案通过抓取的信息是否包含图片信息来制订对应的处理策略,从而避免侵犯别人的权利,所以其具有安全性高的优点。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术第一较佳实施方式提供的一种网上信息抓取方法的流程图;图2为本专利技术第二较佳实施方式提供的一种网上信息抓取系统的结构图。图3为本专利技术第二较佳实施方式提供的一种服务器的硬件结构图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。请参考图1,图1是本专利技术第一较佳实施方式提出的一种网上信息抓取方法,该方法如图1所示,包括如下步骤:步骤S101、服务器接收用户通过HTTP发送的信息抓取请求。步骤S102、服务器从网络中抓取与该抓取请求对应的信息。步骤S103、服务器依据该抓取请求对应的信息内包含的图片信息确定该信息的处理策略。本专利技术提供的技术方案通过抓取的信息是否包含图片信息来制订对应的处理策略,从而避免侵犯别人的权利,所以其具有安全性高的优点。可选的,服务器如所述信息包含图片信息,则将该信息存储,如所述信息不包含图片信息,则将该信息分享。可选的,服务器通过社交软件或即时通信软件对所述信息分享。请参考图2,图2是本专利技术第二较佳实施方式提出的一种网上信息抓取系统,该系统如图2所示,包括:获取单元201,用于接收用户通过HTTP发送的信息抓取请求;处理单元202,用于从网络中抓取与该抓取请求对应的信息;依据该抓取请求对应的信息内包含的图片信息确定该信息的处理策略。本专利技术提供的技术方案通过抓取的信息是否包含图片信息来制订对应的处理策略,从而避免侵犯别人的权利,所以其具有安全性高的优点。可选的,处理单元202,用于服务器如所述信息包含图片信息,则将该信息存储,如所述信息不包含图片信息,则将该信息分享。可选的,处理单元202,用于通过社交软件或即时通信软件对所述信息分享。参阅图3,图3为一种服务器30,包括:处理器301、无线收发器302、存储器303和总线304,无线收发器302用于与外部设备之间收发数据。处理器301的数量可以是一个或多个。本申请的一些实施例中,处理器301、存储器302和收发器303可通过总线304或其他方式连接。服务器30可以用于执行图1的步骤。关于本实施例涉及的术语的含义以及举例,可以参考图1对应的实施例。此处不再赘述。无线收发器302,用于接收用户通过HTTP发送的信息抓取请求。其中,存储器303中存储程序代码。处理器901用于调用存储器903中存储的程序代码,用于执行以下操作:处理器301,用于从网络中抓取与该抓取请求对应的信息;依据该抓取请求对应的信息内包含的图片信息确定该信息的处理策略。需要说明的是,这里的处理器301可以是一个处理元件,也可以是多个处理元件的统称。例如,该处理元件可以是中央处理器(CentralProcessingUnit,CPU),也可以是特定集成电路(ApplicationSpecificIntegratedCircuit,ASIC),或者是被配置成实施本申请实施例的一个或多个集成电路,例如:一个或多个微处理器(digitalsingnalprocessor,DSP),或,一个或者多个现场可编程门阵列(FieldProgrammableGateArray,FPGA)。存储器303可以是一个存储装置,也可以是多个存储元件的统称,且用于存储可执行程序代码或应用程序运行装置运行所需要参数、数据等。且存储器303可以包括随机存储器(RAM),也可以包括非易失性存储器(non-volatilememory),例如磁盘存储器,闪存(Flash)等。总线304可以是工业标准体系结构(IndustryStandardArchitecture,ISA)总线、外部设备互连(PeripheralComponent,PCI)总线或扩展工业标准体系结构(ExtendedIndustryStandardArchitecture,EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示,图3中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。该终端还可以包括输入输出装置,连接于总线304,以通过总线与处理器301等其它部分连接。该输入输出装置可以为操作人员提供一输入界面,以便操作人员通过该输入界面选择布控项,还可以是其它接口,可通过该接口外接其它设备。需要说明的是,对于前述的各个方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技本文档来自技高网...
网上信息抓取方法及系统

【技术保护点】
一种网上信息抓取方法,其特征在于,所述方法包括如下步骤:服务器接收用户通过HTTP发送的信息抓取请求;服务器从网络中抓取与该抓取请求对应的信息;服务器依据该抓取请求对应的信息内包含的图片信息确定该信息的处理策略。

【技术特征摘要】
1.一种网上信息抓取方法,其特征在于,所述方法包括如下步骤:服务器接收用户通过HTTP发送的信息抓取请求;服务器从网络中抓取与该抓取请求对应的信息;服务器依据该抓取请求对应的信息内包含的图片信息确定该信息的处理策略。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:服务器如所述信息包含图片信息,则将该信息存储,如所述信息不包含图片信息,则将该信息分享。3.根据权要求2所述的方法,其特征在于,所述方法还包括:服务器通过社交软件或即时通信软件对所述信息分享。4.一种网上信息抓取系统,其特征在于,所述系统包括:获取单元,用于接收用户通过HTTP发送的信息抓取请求;处理单元,用于从网络中抓取与该抓取请求对应的信息;依据该抓取请求对应的信息内包含的图片信息确定该信息的处理策略。5.根据权利要求4所述的系统,其特征在于,所述系统还包括:处理...

【专利技术属性】
技术研发人员:马岩
申请(专利权)人:深圳市博信诺达经贸咨询有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1