一种WEB数据采集方法及系统技术方案

技术编号:19545836 阅读:19 留言:0更新日期:2018-11-24 20:57
本发明专利技术公开了一种WEB数据采集方法及系统,采集系统包括数据采集装置、数据传输模块和数据接收装置,所述数据采集装置通过数据传输模块连接数据接收装置,所述数据采集装置内设有处理单元、数据采集器、数据加密单元、数据病毒检测单元和数据存储单元,所述数据接收装置内设有第一数据处理单元、第二数据处理单元和存储单元,本发明专利技术结构原理简单,能够准确高效地进行WEB数据采集,而且安全性高。

A WEB Data Acquisition Method and System

The invention discloses a WEB data acquisition method and system, which comprises a data acquisition device, a data transmission module and a data receiving device. The data acquisition device connects a data receiving device through a data transmission module, and the data acquisition device is equipped with a processing unit, a data acquisition device and a data encryption unit. The data virus detection unit and the data storage unit are provided with the first data processing unit, the second data processing unit and the storage unit in the data receiving device. The structure and principle of the present invention are simple, can accurately and efficiently collect WEB data, and has high security.

【技术实现步骤摘要】
一种WEB数据采集方法及系统
本专利技术涉及WEB数据采集
,具体为一种WEB数据采集方法及系统。
技术介绍
Web是伴随着Internet技术而产生的。在计算机网络中,对于提供Web服务的计算机称为Web服务器。Web采用浏览器/服务器的工作方式。每个Web服务器上都放置着大量的Web信息。Web信息的基本单位是Web页(网页),多个网页组成了一个Web节点。每个Web节点的起始页称为“主页”,且拥有一个URL地址(统一资源定位地址)。Web节点之间及网页之间都是以超文本结构(非线性的网状结构)来进行组织的。目前,互联网技术飞速发展,信息呈现出爆炸性的增长,web数据分析具有了非常重大的意义。通过对网页中大量的非结构化的数据进行分析,可以得到有价值的报表等,提供给网站运营人员和管理人员,供他们做决策和运营。其中,Web数据例如包括:PV(pageview,页面浏览量)日志,点击(或者称事件)日志,效果日志(包括登录,订单等)等数据。目前的WEB数据采集方法采集效率低,而且安全性能差。
技术实现思路
本专利技术的目的在于提供一种WEB数据采集方法及系统,以解决上述
技术介绍
中提出的问题。为实现上述目的,本专利技术提供如下技术方案:一种WEB数据采集系统,采集系统包括数据采集装置、数据传输模块和数据接收装置,所述数据采集装置通过数据传输模块连接数据接收装置,所述数据采集装置内设有处理单元、数据采集器、数据加密单元、数据病毒检测单元和数据存储单元,所述数据采集器输入端连接数据采集节点,输出端连接数据加密单元,所述数据加密单元、数据病毒检测单元和数据存储单元均连接处理单元,所述数据接收装置内设有第一数据处理单元、第二数据处理单元和存储单元。优选的,所述第一数据处理单元接收数据并进行分帧处理,将处理得到的数据存储到存储单元并发出第一控制信号;所述第二数据处理单元与所述第一数据处理单元连接,用于根据第一控制信号从存储单元读取相应数据;所述存储单元包括状态寄存器,所述第一数据处理单元检测所述状态寄存器中是否存在未被读取的数据帧,根据检测结果产生表征状态寄存器数据位是否有效的第一状态数据。优选的,其采集方法包括以下步骤:A、数据采集器采集数据采集节点上的WEB数据,采集的WEB数据通过数据加密单元进行加密后传输至处理单元;B、处理单元向数据病毒检测单元发送病毒检测指令,对WEB数据进行病毒检测,若检测不到病毒,则传输至数据存储单元进行存储;C、之后WEB数据通过数据传输模块传输至数据接收装置,数据接收装置对接收的WEB数据进行读取。优选的,所述步骤B中数据病毒检测方法如下:A、获取采集到的WEB数据中的外部链接,外部链接指向数据的供应商所提供资源以外的资源;B、对外部链接进行格式化,得到预设格式的浏览记录,所述预设格式的浏览记录包括用户标识、数据的域名和外部链接;C、如果外部链接既不存在于白数据表又不存在于黑数据表中,则将浏览记录保存到灰数据表中,白数据表用于记录安全外部链接,黑数据表用户记录病毒外部链接;D、在预设时长之后,根据灰数据表中每个外部链接对应的用户标识数量和数据的域名数量,确定每个外部链接的安全类型。与现有技术相比,本专利技术的有益效果是:(1)本专利技术结构原理简单,能够准确高效地进行WEB数据采集,而且安全性高。(2)本专利技术采用的数据接收装置能够通过读取第一状态数据来判断存储单元的数据存储状态,以便判断是否需要继续进行数据读取。这样有效提高了第二数据处理单元的数据读取效率,也就提高了整个装置的数据接收效率。(3)本专利技术采用的数据病毒检测方法能够主动搜索病毒外部链接,进而达到主动WEB蠕虫病毒搜索的效果,提高蠕虫病毒的防治效率。附图说明图1为本专利技术系统原理图;图2为本专利技术采集方法流程图;图3为本专利技术数据病毒检测方法流程图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。请参阅图1-3,本专利技术提供一种技术方案:一种WEB数据采集系统,采集系统包括数据采集装置1、数据传输模块2和数据接收装置3,所述数据采集装置1通过数据传输模块2连接数据接收装置3,所述数据采集装置1内设有处理单元4、数据采集器5、数据加密单元6、数据病毒检测单元7和数据存储单元8,所述数据采集器5输入端连接数据采集节点9,输出端连接数据加密单元6,所述数据加密单元6、数据病毒检测单元7和数据存储单元8均连接处理单元4,所述数据接收装置3内设有第一数据处理单元10、第二数据处理单元11和存储单元12。本专利技术中,第一数据处理单元10接收数据并进行分帧处理,将处理得到的数据存储到存储单元12并发出第一控制信号;所述第二数据处理单元11与所述第一数据处理单元10连接,用于根据第一控制信号从存储单元读取相应数据;所述存储单元包括状态寄存器,所述第一数据处理单元检测所述状态寄存器中是否存在未被读取的数据帧,根据检测结果产生表征状态寄存器数据位是否有效的第一状态数据。第二数据处理单元从存储单元读取数据时,首先读取第一状态数据以判断状态寄存器数据位是否有效,如果有效,所述第二数据处理单元继续进行数据读取操作,否则停止进行数据读取操作。本专利技术采用的数据接收装置能够通过读取第一状态数据来判断存储单元的数据存储状态,以便判断是否需要继续进行数据读取。这样有效提高了第二数据处理单元的数据读取效率,也就提高了整个装置的数据接收效率。本专利技术的采集方法包括以下步骤:A、数据采集器采集数据采集节点上的WEB数据,采集的WEB数据通过数据加密单元进行加密后传输至处理单元;B、处理单元向数据病毒检测单元发送病毒检测指令,对WEB数据进行病毒检测,若检测不到病毒,则传输至数据存储单元进行存储;C、之后WEB数据通过数据传输模块传输至数据接收装置,数据接收装置对接收的WEB数据进行读取。此外,本专利技术中,步骤B中数据病毒检测方法如下:A、获取采集到的WEB数据中的外部链接,外部链接指向数据的供应商所提供资源以外的资源;B、对外部链接进行格式化,得到预设格式的浏览记录,所述预设格式的浏览记录包括用户标识、数据的域名和外部链接;C、如果外部链接既不存在于白数据表又不存在于黑数据表中,则将浏览记录保存到灰数据表中,白数据表用于记录安全外部链接,黑数据表用户记录病毒外部链接;D、在预设时长之后,根据灰数据表中每个外部链接对应的用户标识数量和数据的域名数量,确定每个外部链接的安全类型。本专利技术采用的数据病毒检测方法能够主动搜索病毒外部链接,进而达到主动WEB蠕虫病毒搜索的效果,提高蠕虫病毒的防治效率。综上所述,本专利技术结构原理简单,能够准确高效地进行WEB数据采集,而且安全性高。尽管已经示出和描述了本专利技术的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本专利技术的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本专利技术的范围由所附权利要求及其等同物限定。本文档来自技高网...

【技术保护点】
1.一种WEB数据采集系统,采集系统包括数据采集装置(1)、数据传输模块(2)和数据接收装置(3),其特征在于:所述数据采集装置(1)通过数据传输模块(2)连接数据接收装置(3),所述数据采集装置(1)内设有处理单元(4)、数据采集器(5)、数据加密单元(6)、数据病毒检测单元(7)和数据存储单元(8),所述数据采集器(5)输入端连接数据采集节点(9),输出端连接数据加密单元(6),所述数据加密单元(6)、数据病毒检测单元(7)和数据存储单元(8)均连接处理单元(4),所述数据接收装置(3)内设有第一数据处理单元(10)、第二数据处理单元(11)和存储单元(12)。

【技术特征摘要】
1.一种WEB数据采集系统,采集系统包括数据采集装置(1)、数据传输模块(2)和数据接收装置(3),其特征在于:所述数据采集装置(1)通过数据传输模块(2)连接数据接收装置(3),所述数据采集装置(1)内设有处理单元(4)、数据采集器(5)、数据加密单元(6)、数据病毒检测单元(7)和数据存储单元(8),所述数据采集器(5)输入端连接数据采集节点(9),输出端连接数据加密单元(6),所述数据加密单元(6)、数据病毒检测单元(7)和数据存储单元(8)均连接处理单元(4),所述数据接收装置(3)内设有第一数据处理单元(10)、第二数据处理单元(11)和存储单元(12)。2.根据权利要求1所述的一种WEB数据采集系统,其特征在于:所述第一数据处理单元(10)接收数据并进行分帧处理,将处理得到的数据存储到存储单元(12)并发出第一控制信号;所述第二数据处理单元(11)与所述第一数据处理单元(10)连接,用于根据第一控制信号从存储单元读取相应数据;所述存储单元包括状态寄存器,所述第一数据处理单元检测所述状态寄存器中是否存在未被读取的数据帧,根据检测结果产生表征状态寄存器数据位是否...

【专利技术属性】
技术研发人员:王红林
申请(专利权)人:江苏慧学堂系统工程有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1