一种数据集散发布方法及系统技术方案

技术编号:27935486 阅读:13 留言:0更新日期:2021-04-02 14:15
本发明专利技术属于数据处理领域,具体公开了一种数据集散发布方法及系统,所述方法包括:数据采集过程,通过多路采集端口采集数据,并对采集的数据进行预处理、标记、分发;数据抽取过程,基于上述分发的数据并对数据进行规则算法抽取、合并以及数据抽取数据分析过程,对抽取的数据进行数据分析,数据分析后将数据输送至数据仓库和主体数据库中进行储存,同时通过多维数据库完成数据展现,并通过数据发布子系统进行发布。本发明专利技术能对数据进行集散处理,使得系统中在获取不同的数据时更有效的对数据进行处理,操作方便,提高数据获取效率。

【技术实现步骤摘要】
一种数据集散发布方法及系统
本专利技术涉及数据处理领域,具体为一种数据集散发布方法及系统。
技术介绍
随着经济和科技的不断发展,现实世界中各方面的数据量也急剧增长。数据驱动的智能系统就成为了人工智能和机器学习的前沿重要研究课题。传统的技术已经无法支撑对庞大数据的处理,并且从现存的数据分类算法来看,很多算法也都是基于大规模的学习样本来训练得到分类参数。但当移动终端时代的来临,学习样本的数量严重制约了相应的智能数据分类系统的应用与推广,并且其中的噪声数据也会影响分类系统的准确性。为了提升相应智能系统的性能,数据的数据集散发布就成为了必要的技术。当前数据集散处理在数据采集、分析、展现上存在以下薄弱点:缺乏对重要实时数据统一集散的系统,来实现重要数据的采集存储、监控告警、追溯分析等功能,同时针对多维度统计分析困难,不利于整体数据的集散发布。
技术实现思路
本专利技术的目的在于提供一种数据集散发布方法及系统,以解决上述
技术介绍
中提出的问题。为实现上述目的,本专利技术提供如下技术方案:一种数据集散发布方法,包括如下步骤:S1:数据采集过程,通过多路采集端口采集数据,并对采集的数据进行预处理、标记、分发;S2:数据抽取过程,基于S1中分发的数据并对数据进行规则算法抽取、合并以及数据抽取;S3:数据分析过程,对抽取的数据进行数据分析,数据分析后将数据输送至数据仓库和主体数据库中进行储存,同时通过多维数据库完成数据展现,并通过数据发布子系统进行发布。优选的,S1中具体包括:S11:通过多路采集接口采集原始数据,并对该原始数据进行汇聚以及预处理;S12:对预处理后的数据进行代表性样本抽取,且抽取过程基于原始数据的每个属性极大、极小、平均的标准;S13:利用正交化策略进行样本矫正,选择出最优样本数据;S14:对该最优样本数据进行数据标记、分发,将其分别分发至分析子系统,并由分析子系统进行数据抽取及分析。优选的,S11中预处理包括:去除该原始数据中的含缺失值的记录以及异常值,利用数据集合的秩与类别数对其进行预切割。优选的,S2中具体包括:S21:通过关联规则算法对分发的原始数据进行抽取,得到预处理数据结果表;S22:通过hive连接算法将预处理数据结果表进行合并,并将其导入至大数据平台;S23:大数据平台基于相关度从预处理数据中提取关键数据;且相关度公式为其中,k(wi,wj)为数据wi与数据wj的相关度,tfid(wi)为wi的词频与逆向频率值,d为关于数据wi与数据wj关于词向量的欧式距离;S24:使用深度学习对提取的关键数据进行实体识别和关系抽取优选的,S3中数据展现通过报表方式和/或数据看板的方式进行数据展现,其中数据看板是将数据按照相关的数据分析模型进行数据抽取,并使用图表、数据表格进行。本专利技术还提供了上述一种数据集散发布系统,所述据集散发布系统包括采集端口、数据预处理子系统、数据分析子系统与数据发布子系统,其中采集端口设有多路,多路采集原始数据,并将该原始数据发送至数据预处理子系统;所述数据预处理子系统基于规则算法与抽取算法对采集的数据进行预处理、标记、分发、抽取以及数据分析;所述数据发布子系统包含有多维数据库以及数据发布库,多维数据库将分析处理后的数据进行存储以及数据展现,数据发布库将分析处理后的数据进行发布。与现有技术相比,本专利技术的有益效果是:本专利技术能对数据进行集散处理,使得系统中在获取不同的数据时更有效的对数据进行处理,操作方便,提高数据获取效率,同时保障了数据稳定性和可用性;通过分析系统对数据进行分析后,可通过数据发布库将分析处理后的数据进行发布。附图说明图1为本专利技术方法的流程框图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。请参阅图1,本专利技术提供一种技术方案:一种数据集散发布方法一种数据集散发布方法,包括如下步骤:S1:数据采集过程,通过多路采集端口采集数据,并对采集的数据进行预处理、标记、分发;S2:数据抽取过程,基于S1中分发的数据并对数据进行规则算法抽取、合并以及数据抽取;S3:数据分析过程,对抽取的数据进行数据分析,数据分析后将数据输送至数据仓库和主体数据库中进行储存,同时通过多维数据库完成数据展现,并通过数据发布子系统进行发布。在本实施例中,S1中具体包括:S11:通过多路采集接口采集原始数据,并对该原始数据进行汇聚以及预处理;S12:对预处理后的数据进行代表性样本抽取,且抽取过程基于原始数据的每个属性极大、极小、平均的标准;S13:利用正交化策略进行样本矫正,选择出最优样本数据;S14:对该最优样本数据进行数据标记、分发,将其分别分发至分析子系统,并由分析子系统进行数据抽取及分析。在本实施例中,S11中预处理包括:去除该原始数据中的含缺失值的记录以及异常值,利用数据集合的秩与类别数对其进行预切割。在本实施例中,S2中具体包括:S21:通过关联规则算法对分发的原始数据进行抽取,得到预处理数据结果表;S22:通过hive连接算法将预处理数据结果表进行合并,并将其导入至大数据平台;S23:大数据平台基于相关度从预处理数据中提取关键数据;且相关度公式为其中,k(wi,wj)为数据wi与数据wj的相关度,tfid(wi)为wi的词频与逆向频率值,d为关于数据wi与数据wj关于词向量的欧式距离;S24:使用深度学习对提取的关键数据进行实体识别和关系抽取在本实施例中,S3中数据展现通过报表方式和/或数据看板的方式进行数据展现,其中数据看板是将数据按照相关的数据分析模型进行数据抽取,并使用图表、数据表格进行。本专利技术还提供了上述一种数据集散发布系统,所述据集散发布系统包括采集端口、数据预处理子系统、数据分析子系统与数据发布子系统,其中采集端口设有多路,多路采集原始数据,并将该原始数据发送至数据预处理子系统;所述数据预处理子系统基于规则算法与抽取算法对采集的数据进行预处理、标记、分发、抽取以及数据分析;所述数据发布子系统包含有多维数据库以及数据发布库,多维数据库将分析处理后的数据进行存储以及数据展现,数据发布库将分析处理后的数据进行发布。在本实施例中,数据分析子系统为定时处理,可设定执行时间,数据分析子系统启动时会判断当前时间是否到执行过时间,是则继续执行,否则直接结束。针对前一日和当日数据进行分析处理,并把处理结果保存到数据库。针对前一周和当周数据进行分析处理,并把处理结果保存到数据库。针对前一月和当月数据进行分析处理,并把处理结果保存到数据库。针对前一年和当年数据进行分析处理,并把处理结果保存到数据库,可以提高业务准确度,降低运营成本,以及可以避免数据反复处理,提高处理效率。尽管已经示出和描述了本文档来自技高网...

【技术保护点】
1.一种数据集散发布方法,其特征在于,包括如下步骤:/nS1:数据采集过程,通过多路采集端口采集数据,并对采集的数据进行预处理、标记、分发;/nS2:数据抽取过程,基于S1中分发的数据并对数据进行规则算法抽取、合并以及数据抽取;/nS3:数据分析过程,对抽取的数据进行数据分析,数据分析后将数据输送至数据仓库和主体数据库中进行储存,同时通过多维数据库完成数据展现,并通过数据发布子系统进行发布。/n

【技术特征摘要】
1.一种数据集散发布方法,其特征在于,包括如下步骤:
S1:数据采集过程,通过多路采集端口采集数据,并对采集的数据进行预处理、标记、分发;
S2:数据抽取过程,基于S1中分发的数据并对数据进行规则算法抽取、合并以及数据抽取;
S3:数据分析过程,对抽取的数据进行数据分析,数据分析后将数据输送至数据仓库和主体数据库中进行储存,同时通过多维数据库完成数据展现,并通过数据发布子系统进行发布。


2.根据权利要求1所述的一种数据集散发布方法,其特征在于,所述S1中具体包括:S11:通过多路采集接口采集原始数据,并对该原始数据进行汇聚以及预处理;S12:对预处理后的数据进行代表性样本抽取,且抽取过程基于原始数据的每个属性极大、极小、平均的标准;S13:利用正交化策略进行样本矫正,选择出最优样本数据;S14:对该最优样本数据进行数据标记、分发,将其分别分发至分析子系统,并由分析子系统进行数据抽取及分析。


3.根据权利要求2所述的一种数据集散发布方法,其特征在于,所述S11中预处理包括:去除该原始数据中的含缺失值的记录以及异常值,利用数据集合的秩与类别数对其进行预切割。


4.根据权利要求1所述的一种数据集散发布方法,其特征在于,所述S2中具体包括:<...

【专利技术属性】
技术研发人员:姚文巨
申请(专利权)人:南京小灿灿网络科技有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1