System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于云计算的大数据挖掘方法及挖掘系统技术方案_技高网

一种基于云计算的大数据挖掘方法及挖掘系统技术方案

技术编号:39933725 阅读:5 留言:0更新日期:2024-01-08 22:01
本发明专利技术公开了一种基于云计算的大数据挖掘方法及挖掘系统,涉及云计算技术领域,该系统从硬件架构上分为采集接入层、数据存储层、实时处理层、业务服务层以及用户交互层,采集接入层内置云计算模块,将采集到的大数据进行合并,并形成数据集合;数据存储层内置数据存储模块,提供分布式大数据存储功能;实时处理层至少包括数据挖掘模块和评估对比模块;其技术要点为:将大量数据进行初步分类和训练后,能够得到预测结果数据,并依据获取的参数来计算关联系数Gsx,可以有效的预测预测结果数据与用户需求之间的匹配程度,从而进一步的提高数据挖掘后的准确性,结合分配引擎的使用后,则进一步的实现快捷、准确的大数据挖掘任务。

【技术实现步骤摘要】

本专利技术涉及云计算,具体为一种基于云计算的大数据挖掘方法及挖掘系统


技术介绍

1、云计算是指通过互联网提供计算资源和服务的一种模式,它基于虚拟化技术将计算、存储和网络资源进行了分离和池化,以弹性和按需的方式提供给用户,云计算通常包括以下几个关键概念和组件:虚拟化、服务模型以及部署模式,虚拟化:云计算使用虚拟化技术将物理计算资源(如服务器、存储设备、网络等)抽象为虚拟资源,为用户提供灵活的资源使用方式;服务模型:云计算根据服务提供的层次可以分为三个主要模型:基础设施即服务(iaas)、平台即服务(paas)和软件即服务(saas),iaas提供基础设施的虚拟化资源,paas提供更高层次的开发平台,而saas则是基于云平台提供的应用软件;部署模式:云计算的部署模式包括公有云、私有云和混合云,公有云是由云服务提供商向广大用户提供的云计算服务,私有云是由单个组织或企业自行搭建和管理的云计算基础设施,混合云则是公有云和私有云的结合。

2、现有申请公布号为cn114780620b,名称为一种基于大数据挖掘性能的云计算业务分析方法、装置及系统的中国专利技术专利中指出:该系统主要包括:根据用户对不同业务的历史查询情况获得用户的查询特征值;利用预设时长内访问的所有用户的查询特征值进行用户分类,获得同一类用户的习惯业务序列;根据同一类用户相邻查询次数的不同业务被查询的频率之差以及不同业务间的相关性,获得其在任一查询次数中任意两业务间的关联性;根据用户当前所查询业务、用户的习惯序列以及当前查询次数中各业务的关联性,预测用户下一个查询业务,并将预测查询业务提前放入供用户查询的缓存中。

3、在以上申请中,虽然其能针对不同用户进行具有针对性的查询业务的预测,重新确定各业务间的关联性,进而提前进行存储资源的部署,但其中的相关查询数据与用户需求之间的匹配度无法得到有效的掌控,这样就会导致在数据挖掘时存在部分不符合用户需求的相关数据进入到查询数据中,影响数据挖掘过程中的工作效率和数据挖掘后的相关数据准确性。


技术实现思路

1、(一)解决的技术问题

2、针对现有技术的不足,本专利技术提供了一种基于云计算的大数据挖掘方法及挖掘系统,在将大量数据进行初步分类和训练后,能够得到预测结果数据,并依据获取的参数来计算关联系数gsx,可以有效的预测预测结果数据与用户需求之间的匹配程度,从而进一步的提高数据挖掘后的准确性,结合分配引擎的使用后,则进一步的实现快捷、准确的大数据挖掘任务,解决了
技术介绍
中提出的问题。

3、(二)技术方案

4、为实现以上目的,本专利技术通过以下技术方案予以实现:

5、一种基于云计算的大数据挖掘系统,包括该系统从硬件架构上分为采集接入层、数据存储层、实时处理层、业务服务层以及用户交互层;

6、所述采集接入层内置云计算模块,将采集到的大数据进行合并,并形成数据集合;

7、所述数据存储层内置数据存储模块,提供分布式大数据存储功能,将采集处理得到的数据集合作为数据源,并录入数据库内,也为其他各层提供相应的数据保障;

8、所述实时处理层至少包括数据挖掘模块和评估对比模块,通过数据挖掘模块在并行环境的基础上,搭建并行算法训练模型,对相应数据集合中的各个节点式的数据集均在并行计算框架中执行并行计算任务,经过训练优化后,得到预测结果数据,而后通过评估对比模块依据获取的皮尔逊相关系数pr、斯皮尔曼相关系数sp以及协方差fc,来计算关联系数gsx,该关联系数gsx与标准阈值对比后,得到的对比结果可用于反映预测结果数据与用户需求之间的匹配程度,去除匹配程度低的数据,留存匹配程度高的数据;

9、其中的并行环境即是在初始期间配置的并行计算集群,期间还需要对数据进行二次清洗处理,并行计算框架可选用包括apache hadoop或spark,并行计算任务根据需要进行具体设定,本申请中可选择apache hadoop作为主体计算框架进行后续的相关处理工作。

10、所述业务服务层内置任务调度模块,且内置任务调度模块中搭载分配引擎,实现任务分配和任务调度操作;

11、所述用户交互层为客户端和可视化工具的结合,在客户端上提供用户访问系统服务,并依托客户端来进行各种操作,并将查询结果通过可视化工具进行实时展示。

12、进一步的,所述云计算模块包括采集单元和计算单元,所述采集单元通过利用至少包括rfid射频数据、传感器数据、社交网络交互数据和移动互联网数据在内的方法获取大数据,经过计算单元对数据进行预处理后,并完成对同属性数据的归类,从而得到相应的数据集合,其中的所述计算单元具体步骤为:

13、s101、对大数据利用数据清洗技术进行预处理,实现对数据的初步处理;

14、s102、不同方法下得到的数据组成一个集合{k1,k2,...,kn},获取大数据的方法总量为n;

15、s103、通过配设的数据融合子单元对同属性的数据进行融合,得到新的数据集合{f1,f2,...,fm},不同属性的量为m。

16、进一步的,所述数据存储模块的存储形式包括硬盘存储和云存储,且硬盘存储采用硬盘加密技术,本申请中采用硬盘存储,采用的硬盘加密技术相较于云存储要更加安全。

17、进一步的,使用所述评估对比模块的具体步骤如下:

18、s201、得到关联系数gsx的方式如下:

19、获取皮尔逊相关系数pr、斯皮尔曼相关系数sp以及协方差fc,关联形成关联系数gsx,

20、

21、式中,k1、k2、k3分别为皮尔逊相关系数pr、斯皮尔曼相关系数sp以及协方差fc的预设比例系数,且k1、k2、k3均大于0,g1为常数修正系数,在上述公式中加入|k3*fc∣,以避免出现负值影响关联系数gsx的准确性。

22、s202、将关联系数gsx与标准阈值对比;

23、若是关联系数gsx>标准阈值,则表示预测结果数据与用户需求之间的匹配程度较低,并不能作为用户需求下的关联数据,做出第一执行策略,若是关联系数gsx≤标准阈值,则表示预测结果数据与用户需求之间的匹配程度较高,能作为用户需求下的关联数据,做出第二执行策略;其中,所述第一执行策略为去除匹配程度低的数据,所述第二执行策略为留存匹配程度高的数据,用户需求也可按照预先设定的逻辑关系进行确定,在逻辑关系中确定用户需求对应的数据值或数据集。

24、进一步的,所述任务调度模块搭载的分配引擎,用于将单个任务打碎,并将拆分的碎片任务分配到数据挖掘的不同节点上,再将生成的若干计算任务以单个数据集的形式加载到数据库中,并根据需要进行后续的任务调度。

25、进一步的,所述用户交互层作为系统与用户间联系的窗口,通过客户端进行的各种操作包括查询和保存相关的数据结果,且对查询结果用到的可视化工具可选用液晶显示屏。

26、一种基于云计算的大数据挖掘方法,包括如下步骤:...

【技术保护点】

1.一种基于云计算的大数据挖掘系统,该系统从硬件架构上分为采集接入层、数据存储层、实时处理层、业务服务层以及用户交互层,其特征在于:

2.根据权利要求1所述的一种基于云计算的大数据挖掘系统,其特征在于:所述云计算模块包括采集单元和计算单元,所述采集单元通过利用至少包括RFID射频数据、传感器数据、社交网络交互数据和移动互联网数据在内的方法获取大数据,经过计算单元对数据进行预处理后,并完成对同属性数据的归类,从而得到相应的数据集合。

3.根据权利要求2所述的一种基于云计算的大数据挖掘系统,其特征在于:所述计算单元的具体步骤为:

4.根据权利要求1所述的一种基于云计算的大数据挖掘系统,其特征在于:所述数据存储模块的存储形式包括硬盘存储和云存储,且硬盘存储采用硬盘加密技术。

5.根据权利要求1所述的一种基于云计算的大数据挖掘系统,其特征在于:使用所述评估对比模块的具体步骤如下:

6.根据权利要求5所述的一种基于云计算的大数据挖掘系统,其特征在于:所述第一执行策略为去除匹配程度低的数据,所述第二执行策略为留存匹配程度高的数据。</p>

7.根据权利要求1所述的一种基于云计算的大数据挖掘系统,其特征在于:所述任务调度模块搭载的分配引擎,用于将单个任务打碎,并将拆分的碎片任务分配到数据挖掘的不同节点上,再将生成的若干计算任务以单个数据集的形式加载到数据库中,并根据需要进行后续的任务调度。

8.根据权利要求1所述的一种基于云计算的大数据挖掘系统,其特征在于:所述用户交互层作为系统与用户间联系的窗口,通过客户端进行的各种操作包括查询和保存相关的数据结果,且对查询结果用到的可视化工具可选用液晶显示屏。

9.一种基于云计算的大数据挖掘方法,使用所述权利要求1至8中的任一种系统,其特征在于:包括如下步骤:

...

【技术特征摘要】

1.一种基于云计算的大数据挖掘系统,该系统从硬件架构上分为采集接入层、数据存储层、实时处理层、业务服务层以及用户交互层,其特征在于:

2.根据权利要求1所述的一种基于云计算的大数据挖掘系统,其特征在于:所述云计算模块包括采集单元和计算单元,所述采集单元通过利用至少包括rfid射频数据、传感器数据、社交网络交互数据和移动互联网数据在内的方法获取大数据,经过计算单元对数据进行预处理后,并完成对同属性数据的归类,从而得到相应的数据集合。

3.根据权利要求2所述的一种基于云计算的大数据挖掘系统,其特征在于:所述计算单元的具体步骤为:

4.根据权利要求1所述的一种基于云计算的大数据挖掘系统,其特征在于:所述数据存储模块的存储形式包括硬盘存储和云存储,且硬盘存储采用硬盘加密技术。

5.根据权利要求1所述的一种基于云计算的大数据挖掘系统,其特征在于:使用...

【专利技术属性】
技术研发人员:李明芹
申请(专利权)人:湖北省万泽鸿通信息科技有限公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1