The invention discloses a data acquisition and analysis system supporting unstructured data, which includes: a data acquisition module for obtaining data uploaded from Web pages as the first data, verifying the first data, obtaining the second data, and storing the second data into the unstructured database; a data processing module for extracting the second data from the unstructured database, and a second data processing module for extracting the second data from the unstructured database. Data is cleaned to get the third data, and then the third data is stored in the structured database. Data analysis module is used to analyze and process the data in the unstructured database or structured database. The invention uses unstructured database to store the original data, and then gradually transforms the original data into structured data and stores them in structured database, so that the system can help reduce the load pressure of Web applications and improve the efficiency of unstructured data processing. The invention can be widely used in data processing technology.
【技术实现步骤摘要】
一种支持非结构化数据的采集分析系统和方法
本专利技术涉及数据处理技术,尤其是一种支持非结构化数据的采集分析系统和方法。
技术介绍
目前,依赖于大数据技术的高速发展,越来越多的Web应用被用户所使用,使得Web应用数据量的快速增长。随着Web应用吞吐量的增大,传统的数据存储方式已经不能满足当前的需求,因而促使了大数据量存储技术的产生。但是,目前大多数的Web分析系统采用结构化的数据库,这些系统都不能够方便地对非结构化的数据进行存储和分析,其要求Web应用对采集的数据进行预处理,输出与数据库结构相同的数据格式,增大了Web应用的负载压力。因此有必要对现有技术进行改进。
技术实现思路
为解决上述技术问题,本专利技术的目的在于:提供一种支持非结构化数据的采集分析系统和方法。本专利技术所采取的第一种技术方案是:一种支持非结构化数据的采集分析系统,包括:数据采集模块,用于获取Web页面上传的数据作为第一数据,对所述第一数据进行校验,得到第二数据,将第二数据存入非结构化数据库中;数据处理模块,用于从非结构化数据库中抽取第二数据,对第二数据进行数据清洗,得到第三数据,然后将第三数据存 ...
【技术保护点】
1.一种支持非结构化数据的采集分析系统,其特征在于:包括:数据采集模块,用于获取Web页面上传的数据作为第一数据,对所述第一数据进行校验,得到第二数据,将第二数据存入非结构化数据库中;数据处理模块,用于从非结构化数据库中抽取第二数据,对第二数据进行数据清洗,得到第三数据,然后将第三数据存入结构化数据库中;数据分析模块,用于对非结构化数据库中的数据或者结构化数据库中的数据进行分析处理。
【技术特征摘要】
1.一种支持非结构化数据的采集分析系统,其特征在于:包括:数据采集模块,用于获取Web页面上传的数据作为第一数据,对所述第一数据进行校验,得到第二数据,将第二数据存入非结构化数据库中;数据处理模块,用于从非结构化数据库中抽取第二数据,对第二数据进行数据清洗,得到第三数据,然后将第三数据存入结构化数据库中;数据分析模块,用于对非结构化数据库中的数据或者结构化数据库中的数据进行分析处理。2.根据权利要求1所述的一种支持非结构化数据的采集分析系统,其特征在于:所述非结构化数据库为MongoDB数据库,所述结构化数据库为MySQL数据库。3.根据权利要求1所述的一种支持非结构化数据的采集分析系统,其特征在于:所述数据采集模块包括数据录入单元,所述数据录入单元用于采集用户输入的数据作为第一数据。4.根据权利要求1所述的一种支持非结构化数据的采集分析系统,其特征在于:所述非结构化数据库中以文档作为存储单位。5.根据权利要求1所述的一种支持非结构化数据的采集分析系统,其特征在于:所述对第二数据进行数据清洗,得到第三数据,其具体包括:获取结构化数据库的第一表结构;获取第二数据的第二表结构;根据第一表结构,删除第二表结构中的无效字段的数据,得到第三数据...
【专利技术属性】
技术研发人员:颜文德,徐明,叶祖锋,王华松,
申请(专利权)人:广州欧赛斯信息科技有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。