System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于大数据的数据挖掘系统及其挖掘方法技术方案_技高网

一种基于大数据的数据挖掘系统及其挖掘方法技术方案

技术编号:40473553 阅读:6 留言:0更新日期:2024-02-26 19:10
本发明专利技术公开了一种基于大数据的数据挖掘系统及其挖掘方法,属于大数据技术领域。为解决数据抓取类型有限以及数据利用率低的问题,数据采集单元对基本数据、图像数据和视频数据文件进行采集和抓取,文本读取模块、图像处理模块和视频处理模块可以有效的对多种格式的数据文件进行处理,从而可以更加全面的对多元格式的数据进行分类和挖掘操作,提高数据挖掘效果,数据挖掘单元提取抓取数据集的关键字节进行校验并对异常数据进行剔除,通过对关键字节进行校验,可以有效的对抓取数据集内的数据进行校验筛选,有效的降低了数据挖掘的成本和难度,能够全面系统的进行挖掘、存储和利用,形成一个统一的系统针对性进行数据利用,提高数据利用率。

【技术实现步骤摘要】

本专利技术涉及大数据,特别涉及一种基于大数据的数据挖掘系统及其挖掘方法


技术介绍

1、数据挖掘是指用适当的统计分析方法对收集来的大量数据进行分析总结,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。这一过程也是质量管理体系的支持过程。

2、已有相关专利,比如公开号cn106339451a 公开了一种基于大数据的数据挖掘系统,包括信息系统、数据挖掘应用服务器和行业客户端;信息系统用于收集和处理用户预设条件的行业数据,并通过总线接入该系统中;数据挖掘应用服务器用于针对用户所预设的行业数据进行数据抽取、转换和装载,并将数据挖掘结果导入行业客户端;行业客户端用于为用户提供分析处理后的最终数据,供客户提取。用户可以根据自身需要预设不同的行业数据,如银行数据、基因序列、金融控制等,数据挖掘应用服务器再根据用户的预设条件进行针对性分析处理,结构简单、目的明确、效率高。

3、上述专利其实在实际的操作中还存在以下问题:

4、1、在对数据进行挖掘前抓取时,往往数据格式单一,从而可能会带来抓取数据类型少、广度低的问题,影响数据挖掘的效果;

5、2、现有的数据分析系统仅能实现对现有数据进行简单的统计处理,而无法根据现有数据对企业运行状态进行深度数据挖掘分析,难以对数据进行充分利用。


技术实现思路

1、本专利技术的目的在于提供一种基于大数据的数据挖掘系统及其挖掘方法,以解决上述
技术介绍
中提出的问题。

2、为实现上述目的,本专利技术提供如下技术方案:一种基于大数据的数据挖掘系统,包括:

3、数据采集单元,用于:

4、对基本数据、图像数据和视频数据文件进行采集并生成基础数据文件,对基本数据的文本信息进行信息读取得到关键词集合,对图像数据文件进行文字信息及图片特征提取,并对基本数据中的关键词集合以及图像数据文件中的文字信息及图片特征进行抓取,并生成抓取数据集;

5、数据存储单元,用于:

6、与云平台交互,对基本数据中的关键词集合、图像数据文件中的文字信息及图片特征以及视频数据文件中的关键区域进行数据集分布式存储及加密,同时基于云平台中通过网络对数据进行共享;

7、数据挖掘单元,用于:

8、提取抓取数据集的关键字节进行校验并对异常数据进行剔除,生成去异数据,基于去异数据对基础数据文件进行数据清洗并生成确定数据集;

9、数据反馈单元,用于:

10、对云平台进行数据检索和检索结果显示及提醒;

11、云平台,用于:

12、通过云端储存和编辑后,将分类信息输送至数据存储单元,并将反馈信息回传;

13、用户终端,用于:

14、用于对数据采集单元、数据存储单元、数据挖掘单元和数据反馈单元进行储存、运行和实施,包括不少于一个登录端及不少于一个控制终端,当控制终端工作时,运行数据采集单元、数据存储单元、数据挖掘单元和数据反馈单元并实现基于基于大数据的数据挖掘系统,登录端通过互联网连接到控制终端、云平台和服务器。

15、进一步的,所述数据采集单元包括:

16、文件采集模块,用于:

17、对基本数据、图像数据和视频数据文件进行采集,并基于基本数据、图像数据和视频数据文件生成基础数据文件;

18、文本读取模块,用于:

19、对基本数据的文本信息进行信息读取,对文本信息进行信息分割并得到文本信息中的若干个提取词语,根据词性统计特征对提取词语进行清洗,得到关键词集合;

20、图像处理模块,用于:

21、对图像数据文件进行文字信息及图片特征提取,对图像数据文件创建关联戳,获取每一个图像数据文件的关联戳,每一个图像数据文件的关联戳为全局唯一关联戳,对每一个图像数据文件所提取出的文字信息及图片特征进行关联戳关联;

22、视频处理模块,用于:

23、对视频数据文件进行视频关键段截取,对视频关键段进行分帧处理,得到若干帧视频图像,确定每个视频图像中的关键区域,每个视频图像中包括一个关键区域;

24、信息抓取模块,用于:

25、对基本数据中的关键词集合、图像数据文件中的文字信息及图片特征以及视频数据文件中的关键区域进行抓取,并基于所抓取的数据生成抓取数据集。

26、进一步的,所述数据存储单元包括:

27、数据储存模块,用于:

28、与云平台交互,对基本数据中的关键词集合、图像数据文件中的文字信息及图片特征以及视频数据文件中的关键区域进行数据集分布式存储,并通过云平台对数据存储信息进行定位;

29、数据加密模块,用于:

30、与数据储存模块交互,对数据集分布式存储进行加密处理;

31、数据共享模块,用于:

32、与云平台交互,对云平台中的数据进行处理并通过网络进行共享。

33、进一步的,所述数据挖掘单元包括:

34、异常剔除模块,用于:

35、提取抓取数据集的关键字节进行校验,并对关键字节进行关联分析,确定出存在异常的区别关键字节,并从各项数据中提取区别关键字节对应的异常数据进行剔除,并基于剔除异常数据后的抓取数据集生成去异数据;

36、数据清洗模块,用于:

37、基于去异数据对基础数据文件进行数据清洗,数据清洗时基于去异数据所对应的关联戳对基础数据文件进行清洗筛选,生成确定数据集。

38、进一步的,所述异常剔除模块在进行校验时对抓取数据集进行关联分析,搭建数据关联分析模型,将抓取数据集输入至数据关联分析模型中进行数据分析,基于数据分析结果输出分析报告。

39、进一步的,所述数据反馈单元包括:

40、快速检索模块,用于:

41、与云平台交互并基于索引系统对外提供查询服务;

42、数据反馈模块,用于:

43、根据快速检索模块的检索结果,通过显示设备进行显示和提醒。

44、进一步的,所述云平台包括:

45、云端数据库,用于:

46、将接收到的基本数据中的关键词集合、图像数据文件中的文字信息及图片特征以及视频数据文件中的关键区域依据数据流标签进行分类储存;

47、数据处理模块,用于:

48、将分类储存的数据依据流属性信息和数据内容进行分组,并分类标记,分组包括基本数据集、图像数据集及视频数据集;

49、数据匹配模块,用于:

50、将数据处理模块处理分组后的数据集分别根据数据存储单元属性信息匹配生成相对应的数据流的数据要求,并将该数据流的数据要求与数据集对接。

51、进一步的,所述数据加密模块包括:

52、加密管理子模块,用于:

53、按照数据集分布式存储的分布情况分成多个部分,在每一部分中寄存加密方法,然后针对加密方法进行使用本文档来自技高网...

【技术保护点】

1.一种基于大数据的数据挖掘系统,其特征在于,包括:

2.如权利要求1所述的一种基于大数据的数据挖掘系统,其特征在于:所述数据采集单元包括:

3.如权利要求1所述的一种基于大数据的数据挖掘系统,其特征在于:所述数据存储单元包括:

4.如权利要求1所述的一种基于大数据的数据挖掘系统,其特征在于:所述数据挖掘单元包括:

5.如权利要求4所述的一种基于大数据的数据挖掘系统,其特征在于:所述异常剔除模块在进行校验时对抓取数据集进行关联分析,搭建数据关联分析模型,将抓取数据集输入至数据关联分析模型中进行数据分析,基于数据分析结果输出分析报告。

6.如权利要求1所述的一种基于大数据的数据挖掘系统,其特征在于:所述数据反馈单元包括:

7.如权利要求1所述的一种基于大数据的数据挖掘系统,其特征在于:所述云平台包括:

8.如权利要求3所述的一种基于大数据的数据挖掘系统,其特征在于:所述数据加密模块包括:

9.如权利要求2所述的一种基于大数据的数据挖掘系统,其特征在于:所述视频处理模块确定每个视频图像中的关键区域时结合得到的若干帧视频图像进行确定,包括:

10.一种根据权利要求1-9中任一项所述的基于大数据的数据挖掘系统的挖掘方法,其特征在于:包括如下步骤:

...

【技术特征摘要】

1.一种基于大数据的数据挖掘系统,其特征在于,包括:

2.如权利要求1所述的一种基于大数据的数据挖掘系统,其特征在于:所述数据采集单元包括:

3.如权利要求1所述的一种基于大数据的数据挖掘系统,其特征在于:所述数据存储单元包括:

4.如权利要求1所述的一种基于大数据的数据挖掘系统,其特征在于:所述数据挖掘单元包括:

5.如权利要求4所述的一种基于大数据的数据挖掘系统,其特征在于:所述异常剔除模块在进行校验时对抓取数据集进行关联分析,搭建数据关联分析模型,将抓取数据集输入至数据关联分析模型中进行数据分析,基于数据分析结果输出分析报...

【专利技术属性】
技术研发人员:高兴毅
申请(专利权)人:山东科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1