当前位置: 首页 > 专利查询>葛玉芬专利>正文

一种基于大数据的企业数据采集分析方法及系统技术方案

技术编号:37235773 阅读:4 留言:0更新日期:2023-04-20 23:17
本发明专利技术公开了一种基于大数据的企业数据采集分析方法,用户通过客户端向大数据采集分析平台发送访问请求,所述大数据采集分析平台对用户身份进行验证,首先接收用户的信息准确度需求,将所述接收到的信息准确度需求与该用户的权限对应的数据准确度等级的范围进行对比,判断该需求所处在的数据精确度等级是否落在所述范围之内;所述大数据采集分析平台对用户输入的查询信息进行信息关联度分析,判断用户输入的查询信息与数据源的关联程度,根据所述时效性要求对第一排序进行二次排序,按照时间相关度调整相关度序列得到第二排序;在进行量化之后根据量化值对应的选择范围选择在第二排序上的排名靠前的数据源进行数据采集。二排序上的排名靠前的数据源进行数据采集。二排序上的排名靠前的数据源进行数据采集。

【技术实现步骤摘要】
一种基于大数据的企业数据采集分析方法及系统


[0001]本专利技术涉及计算机大数据处理
,尤其涉及一种基于大数据的企业数据采集分析方法及系统。

技术介绍

[0002]大数据作为对信息技术的兴趣正在全球范围内迅速兴起,并且关注的重点是公共机构和公司将通过迄今为止收集的大数据来创造什么价值。Hadoop是一个用于大数据处理分析的开源项目,它是Hadoop文件系统(HDFS),操作系统级别抽象和MapReduce引擎,可以轻松地聚合,查询和分析大量数据。包括能够进行分布式和并行处理的库,用于开发需要大量数据的智能应用程序。它还包括必要的Java归档文件(Java ARchive,JAR),启动Hadoop的脚本,源代码和相关资料。
[0003]大数据包括结构化、半结构化和非结构化数据,非结构化数据越来越成为数据的主要部分。据IDC的调查报告显示:企业中80%的数据都是非结构化数据,这些数据每年都按指数增长60%。在以云计算为代表的技术创新大幕的衬托下,这些原本看起来很难收集和使用的数据开始容易被利用起来了,通过各行各业的不断创新,大数据会逐步为人类创造更多的价值。
[0004]传统的大数据采集的方式为对于大数据的数据采集具体为通过一个Open API、Web爬行器以及日志聚合器。Open API模块实时收集公共门户网站提供的公共机构的相关信息数据。Web爬网程序模块通过Web爬网程序实时收集公共机构网站公告板提供的企业需要的数据。日志聚合器模块从各种收集器收集企业需要的数据。
[0005]然而,传统的大数据采集通常采用例如爬虫工具对多个数据节点进行爬取,得到的数据量很大,虽然后期的分析模块会对大量的数据进行处理得到用户希望得到的采集数据,但是将采集和分析进行分离的方式会导致采集的数据量过大,增加平台压力,并且对数据节点也不友好。

技术实现思路

[0006]本专利技术旨在至少解决现有技术中存在的技术问题之一。为此,本专利技术公开了一种基于大数据的企业数据采集分析方法,所述采集分析方法应用于大数据采集分析平台,所述大数据采集分析平台与多个数据源进行分布式连接,所述大数据采集分析平台在低负载时间对所述多个数据源内的数据进行分析,按照数据源内的数据分布和数据对应的建立时间对数据源进行标签标注,所述采集分析方法包括如下步骤:
[0007]步骤1,用户通过客户端向大数据采集分析平台发送访问请求,所述大数据采集分析平台对用户身份进行验证,其中,所述用户身份的权限对应于可以进行数据采集的准确度等级的范围;
[0008]步骤2,在用户通过了所述大数据采集分析平台的身份认证后,在进行大数据的采集分析之前,首先接收用户的信息准确度需求,将所述接收到的信息准确度需求与该用户
的权限对应的数据准确度等级的范围进行对比,判断该需求所处在的数据精确度等级是否落在所述范围之内,当并未落在所述范围内时,所述大数据采集分析平台通过API接口与一般性数据爬取单元连接,所述一般性数据爬取单元包括Web爬行器以及日志聚合器,用以实时收集全部数据源的相关信息数据,用户的查询为通过所述API接口在一般性数据爬取单元中直接查询,而当落在所述范围之内时,继续执行步骤3;
[0009]步骤3,再接收用户查询的数据信息,所述大数据采集分析平台对用户输入的查询信息进行信息关联度分析,判断用户输入的查询信息与数据源的关联程度,并按照所述关联程度对数据源进行第一排序;
[0010]步骤4,再对用户输入的查询信息进行时效性分析,判断所述用户输入的查询信息的时效性要求,根据所述时效性要求对所述第一排序进行二次排序,按照时间相关度调整相关度序列得到第二排序;
[0011]步骤5,根据用户输入的信息准确度需求,在进行量化之后根据量化值对应的选择范围选择在第二排序上的排名靠前的数据源进行数据采集。
[0012]更进一步地,所述按照数据源内的数据分布和数据对应的建立时间对数据源进行标签标注进一步包括:预先设置企业查询标签,标注的内容标签为数据源中的标签对应的相关数据内容占该数据源内的全部数据的占比,而时效性标签为与企业采集数据相关的数据的更新频率。
[0013]更进一步地,所述首先接收用户的信息准确度需求进一步包括:接收用户需要的信息准确度等级,或者接收用户对需求信息的描述,所述大数据采集分析平台根据用户的信息描述进行语义分析,对需求的准确度进行量化,在根据量化值归类于不同的准确度等级。
[0014]更进一步地,所述查询信息的时效性为平台按照企业相关的数据进行分类,建立企业相关数据与时效性要求的对应关系并存储于数据库中(例如特定税务信息需要在对应时间分级分类查询)。
[0015]更进一步地,所述当并未落在所述范围内时,所述大数据采集分析平台通过API接口与一般性数据爬取单元连接,所述一般性数据爬取单元包括Web爬行器以及日志聚合器,用以实时收集全部数据源的相关信息数据,用户的查询为通过所述API接口在一般性数据爬取单元中直接查询进一步包括:当用户的准确度需求低于其本申请的权限后,用户通过平台的另一个接口连接分布式爬虫模块,通过爬取多个数据源内的数据建立数据索引表,用户输入查询信息后,与分布式爬虫模块相连接的分析模块对查询信息进行关键词提取,然而与所述索引表进行对应提取相关的企业数据。
[0016]本专利技术还公开了一种基于大数据的企业数据采集分析系统,所述采集分析系统包括大数据采集分析平台,所述大数据采集分析平台与多个数据源进行分布式连接,所述大数据采集分析平台在低负载时间对所述多个数据源内的数据进行分析,按照数据源内的数据分布和数据对应的建立时间对数据源进行标签标注,用户通过客户端向大数据采集分析平台发送访问请求,所述大数据采集分析平台对用户身份进行验证,其中,所述用户身份的权限对应于可以进行数据采集的准确度等级的范围;在用户通过了所述大数据采集分析平台的身份认证后,在进行大数据的采集分析之前,首先接收用户的信息准确度需求,将所述接收到的信息准确度需求与该用户的权限对应的数据准确度等级的范围进行对比,判断该
需求所处在的数据精确度等级是否落在所述范围之内,当并未落在所述范围内时,所述大数据采集分析平台通过API接口与一般性数据爬取单元连接,所述一般性数据爬取单元包括Web爬行器以及日志聚合器,用以实时收集全部数据源的相关信息数据,用户的查询为通过所述API接口在一般性数据爬取单元中直接查询,而当落在所述范围之内时,再接收用户查询的数据信息,所述大数据采集分析平台对用户输入的查询信息进行信息关联度分析,判断用户输入的查询信息与数据源的关联程度,并按照所述关联程度对数据源进行第一排序;然后对用户输入的查询信息进行时效性分析,判断所述用户输入的查询信息的时效性要求,根据所述时效性要求对所述第一排序进行二次排序,按照时间相关度调整相关度序列得到第二排序;根据用户输入的信息准确度需求,在进行量化之后根据量化值对应的选择范围选择在第二排序上的排名靠前的数据源进行数据采集。
[0017]优选地,所述按照数本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于大数据的企业数据采集分析方法,其特征在于,所述采集分析方法应用于大数据采集分析平台,所述大数据采集分析平台与多个数据源进行分布式连接,所述大数据采集分析平台在低负载时间对所述多个数据源内的数据进行分析,按照数据源内的数据分布和数据对应的建立时间对数据源进行标签标注,所述采集分析方法包括如下步骤:步骤1,用户通过客户端向大数据采集分析平台发送访问请求,所述大数据采集分析平台对用户身份进行验证,其中,所述用户身份的权限对应于可以进行数据采集的准确度等级的范围;步骤2,在用户通过了所述大数据采集分析平台的身份认证后,在进行大数据的采集分析之前,首先接收用户的信息准确度需求,将所述接收到的信息准确度需求与该用户的权限对应的数据准确度等级的范围进行对比,判断该需求所处在的数据精确度等级是否落在所述范围之内,当并未落在所述范围内时,所述大数据采集分析平台通过API接口与一般性数据爬取单元连接,所述一般性数据爬取单元包括Web爬行器以及日志聚合器,用以实时收集全部数据源的相关信息数据,用户的查询为通过所述API接口在一般性数据爬取单元中直接查询,而当落在所述范围之内时,继续执行步骤3;步骤3,再接收用户查询的数据信息,所述大数据采集分析平台对用户输入的查询信息进行信息关联度分析,判断用户输入的查询信息与数据源的关联程度,并按照所述关联程度对数据源进行第一排序;步骤4,再对用户输入的查询信息进行时效性分析,判断所述用户输入的查询信息的时效性要求,根据所述时效性要求对所述第一排序进行二次排序,按照时间相关度调整相关度序列得到第二排序;步骤5,根据用户输入的信息准确度需求,在进行量化之后根据量化值对应的选择范围选择在第二排序上的排名靠前的数据源进行数据采集。2.如权利要求1所述的一种基于大数据的企业数据采集分析方法,其特征在于,所述按照数据源内的数据分布和数据对应的建立时间对数据源进行标签标注进一步包括:预先设置企业查询标签,标注的内容标签为数据源中的标签对应的相关数据内容占该数据源内的全部数据的占比,而时效性标签为与企业采集数据相关的数据的更新频率。3.如权利要求1所述的一种基于大数据的企业数据采集分析方法,其特征在于,所述首先接收用户的信息准确度需求进一步包括:接收用户需要的信息准确度等级,或者接收用户对需求信息的描述,所述大数据采集分析平台根据用户的信息描述进行语义分析,对需求的准确度进行量化,在根据量化值归类于不同的准确度等级。4.如权利要求1所述的一种基于大数据的企业数据采集分析方法,其特征在于,所述查询信息的时效性为平台按照企业相关的数据进行分类,建立企业相关数据与时效性要求的对应关系并存储于数据库中。5.如权利要求1所述的所述的一种基于大数据的企业数据采集分析方法,其特征在于,所述当并未落在所述范围内时,所述大数据采集分析平台通过API接口与一般性数据爬取单元连接,所述一般性数据爬取单元包括Web爬行器以及日志聚合器,用以实时收集全部数据源的相关信息数据,用户的查询为通过所述API接口在一般性数据爬取单元中直接查询进一步包括:当用户的准确度需求低于其本申请的权限后,用户通过平台的另一个接口连接分布式爬虫模块,通过爬取多个数据源内的数据建立数据索引表,用户输入查询信息后,
与分布式爬虫模块相连接的分析模块对查询信息进行关键词提取,然...

【专利技术属性】
技术研发人员:程月陈一鸣葛玉芬
申请(专利权)人:葛玉芬
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1