一种基于大数据的项目数据管理方法及系统技术方案

技术编号:33730863 阅读:15 留言:0更新日期:2022-06-08 21:26
本发明专利技术提供一种基于大数据的项目数据管理方法,包括:获取业务需求,并对所述业务需求进行采集、清洗、融合和挖掘,确定项目数据;基于预设的大数据中心,对所述项目数据进行处理,生成对应的项目业务,并基于所述项目业务,构建项目模型;通过预设的评价指标,对所述项目模型进行评估,生成评估结果,并通过所述评估结果,优化项目模型。优化项目模型。优化项目模型。

【技术实现步骤摘要】
一种基于大数据的项目数据管理方法及系统


[0001]本专利技术涉及大数据、项目数据
,特别涉及一种基于大数据的项目数据管理方法及系统。

技术介绍

[0002]目前,大数据项目分析覆盖到人们生活的方方面面,涵括了生活方式、音乐、时尚、创意和等等场所,通过大数据对用户和课题进行研究和挖掘,通过大数据驱动产品,是目前大数据项目服务的主要价值。
[0003]但目前而言,实现大数据项目的分析,需要庞大的数据支持,不仅工作效率慢,对用户需求定位不够精准,同时数据的融合效果也面临着海量数据,面对庞大的数据,数据迭代周期快,大数据项目也需要时常更新,但现在的项目时长需要人工进行排查和更新,目前需要一种自我迭代快、适应力强和鲁棒性高的大数据项目管理方法。
[0004]已经公开的专利CN 112598405 A提供了一种基于大数据的项目数据管理方法及系统。针对用户需求定位不够精准、智能,从而导致项目实施方向的定位不够合理。基于大数据的数据分析成为项目决策的重要步骤,从而为市场预测和营销决策提供客观的、正确的资料。

技术实现思路

[0005]本专利技术提供一种基于大数据的项目数据管理系统及方法,以解决上述问题。
[0006]本专利技术提一种基于大数据的项目数据管理方法,包括:
[0007]获取业务需求,并对所述业务需求进行采集、清洗、融合和挖掘,确定项目数据;
[0008]基于预设的大数据中心,对所述项目数据进行处理,生成对应的项目业务,并基于所述项目业务,构建项目模型;/>[0009]通过预设的评价指标,对所述项目模型进行评估,生成评估结果,并通过所述评估结果,优化项目模型。
[0010]作为本技术方案的一种实施例,所述获取业务需求,并对所述业务需求进行采集、清洗、融合和挖掘,确定项目数据,包括:
[0011]获取业务需求,设置爬虫程序,通过所述爬虫程序,按照预设的抓取频率,对业务需求进行定向采集,确定采集数据;
[0012]对所述采集数据进行查重、过滤、清理和替换,确定清洗数据;
[0013]基于预设的大数据处理中心,对所述清洗数据进行归类、合并和融合,确定融合数据;
[0014]基于预设的挖掘机制,对所述融合数据进行挖掘,确定项目数据;其中,
[0015]所述挖掘机制至少由预设的决策树算法、贝叶斯分类算法、规则分类算法、神经网络机制、持向量机、懒惰学习算法和案例推理算法构成。
[0016]作为本技术方案的一种实施例,所述对所述采集数据进行查重、过滤、清理和替
换,确定清洗数据,还包括:
[0017]获取采集数据的采集时间序列;
[0018]当所述采集数据对应的采集时间序列出现重复时,对重复的采集时间序列下的采集数据进行过滤,保留唯一采集时间序列及对应的采集数据;
[0019]当所述采集数据对应的采集时间序列的缺失率超过预设的缺失率阈值,将采集时间序列对应位置的采集数据进行清理;
[0020]当所述采集数据对应的采集时间序列的缺失率小过预设的缺失率阈值,确定未缺失的采集时间序列下对应的样本数据集合和缺失的采集时间序列下对应的缺失数据集合;
[0021]通过所述样本数据集合和缺失数据集合,构建最小二乘法回归函数;
[0022]基于所述最小二乘法回归函数,估计缺失数据集合中的缺失数据,并通过估计后的缺失数据对对应的缺失的采集时间序列下的缺失位置进行填补和替换。
[0023]作为本技术方案的一种实施例,所述当所述采集数据对应的采集时间序列出现重复时,对重复的采集时间序列下的采集数据进行过滤,保留唯一采集时间序列及对应的采集数据,包括:
[0024]当所述采集数据对应的采集时间序列出现重复时,判断重复的采集时间序列对应的采集数据是否相同,确定重复判断结果;其中,
[0025]当重复判断结果为重复的采集时间序列对应的采集数据相同时,对重复的采集数据进行过滤;
[0026]当重复判断结果为重复的采集时间序列对应的采集数据不相同时,获取对应的采集时间序列,并将所述采集时间序列和对应的采集数据反馈至预设的控制终端。
[0027]作为本技术方案的一种实施例,所述基于预设的大数据中心,对所述项目数据进行处理,生成对应的项目业务,并基于所述项目业务,构建项目模型,包括:
[0028]将所述项目数据传输至大数据中心预设的深度神经网络系统进行训练,生成训练样本;
[0029]获取训练样本的描述信息,并计算训练样本描述信息之间的依赖度,并通过预设的决策对象和所述依赖度,分析和计算训练样本的规则强度和确定因子;
[0030]通过所述规则强度和确定因子,生成对应的决策机制;
[0031]获取训练样本的类关系,梳理并分析不同类关系下的项目数据集合的业务需求和业务流程,并通过所述业务需求和业务流程,构建业务项目;
[0032]通过决策机制,对所述业务项目进行信息提取和信息推理,构建项目模型。
[0033]作为本技术方案的一种实施例,所述获取训练样本的描述信息,并计算训练样本描述信息之间的依赖度,包括:
[0034]获取训练样本集合X;
[0035]其中,x代表训练样本集合任意一个训练样本;
[0036]获取训练样本集合中训练样本的描述信息,对所述描述信息进行处理和统计,确定对应的样本函数簇;
[0037]I=(U,S,Z,f:a

b)
[0038]其中,I代表描述样本函数簇,U∈X,U代表不同种类的描述信息区分后的样本训练非空集合,S代表样本训练非空集合对应的属性数据集合,Z代表属性数据集合的区间范围,
f代表映射规则,a

b代表描述信息a和描述信息b之间存在着映射规则f,a和b代表不同的描述信息的标识符;
[0039]基于所述样本函数簇,计算训练样本之间的依赖度;
[0040][0041]其中,H代表练样本之间的依赖度,i=1,2,

,m,m代表样本函数簇的样本总批数,k
i
代表第i批样本函数簇中之间有映射关系的总个数,A
i
代表第i批样本函数簇的映射中心点,A
X
代表所有样本函数簇的映射中心点,X代表训练样本集合,I
j
代表第j批样本函数簇,j=1,2,

,n代表样本函数簇的样本点总个数,cer代表样本函数簇之间的耦合度,s代表样本函数簇之间的分离度,

代表样本函数簇之间的影响临界值。
[0042]作为本技术方案的一种实施例,所述通过决策机制,对所述业务项目进行信息提取和信息推理,构建项目模型,包括:
[0043]通过决策机制,对所述业务项目进行趋势预测,确定预测结果;其中,
[0044]所述趋势预测至少包括业务类型趋势预测、业务风险趋势预测、业务成本趋势预测和业务获益趋势预测;
[本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于大数据的项目数据管理方法,其特征在于,包括:获取业务需求,并对所述业务需求进行预处理,确定项目数据;其中,所述预处理至少包括采集、清洗、融合和挖掘;基于预设的大数据中心,对所述项目数据进行处理,生成对应的项目业务,并基于所述项目业务,构建项目模型;通过预设的评价指标,对所述项目模型进行评估,生成评估结果,并通过所述评估结果,优化项目模型。2.如权利要求1所述的一种基于大数据的项目数据管理系统,其特征在于,所述获取业务需求,并对所述业务需求进行预处理,确定项目数据,包括:获取业务需求,设置爬虫程序,通过所述爬虫程序,对业务需求进行定向采集,确定采集数据;对所述采集数据进行清洗确定清洗数据;其中,所述清洗至少包括查重、过滤、清理和替换;基于预设的大数据处理中心,对所述清洗数据进行归类、合并和融合,确定融合数据;基于预设的挖掘机制,对所述融合数据进行数据分析和挖掘,确定挖掘数据;其中,所述挖掘机制至少由预设的决策树算法、贝叶斯分类算法、规则分类算法、神经网络机制、持向量机、懒惰学习算法和案例推理算法构成;基于预设的业务需求指标,对满足业务需求指标的挖掘数据进行二次整理和统计,确定项目数据。3.如权利要求2所述的一种基于大数据的项目数据管理系统,其特征在于,所述对所述采集数据进行清洗,确定清洗数据,还包括:获取采集数据的采集时间序列;当所述采集数据对应的采集时间序列出现重复时,对重复的采集时间序列下的采集数据进行过滤,保留唯一采集时间序列及对应的采集数据;当所述采集数据对应的采集时间序列的缺失率超过预设的缺失率阈值,将采集时间序列对应位置的采集数据进行清理;当所述采集数据对应的采集时间序列的缺失率小过预设的缺失率阈值,确定未缺失的采集时间序列下对应的样本数据集合和缺失的采集时间序列下对应的缺失数据集合;通过所述样本数据集合和缺失数据集合,构建最小二乘法回归函数;基于所述最小二乘法回归函数,估计缺失数据集合中的缺失数据,并通过估计后的缺失数据对对应的缺失的采集时间序列下的缺失位置进行填补和替换。4.如权利要求2所述的一种基于大数据的项目数据管理系统,其特征在于,所述当所述采集数据对应的采集时间序列出现重复时,对重复的采集时间序列下的采集数据进行过滤,保留唯一采集时间序列及对应的采集数据,包括:当所述采集数据对应的采集时间序列出现重复时,判断重复的采集时间序列对应的采集数据是否相同,确定重复判断结果;其中,当重复判断结果为重复的采集时间序列对应的采集数据相同时,对重复的采集数据进行过滤;当重复判断结果为重复的采集时间序列对应的采集数据不相同时,获取对应的采集时
间序列,并将所述采集时间序列和对应的采集数据反馈至预设的控制终端。5.如权利要求1所述的一种基于大数据的项目数据管理系统,其特征在于,所述基于预设的大数据中心,对所述项目数据进行处理,生成对应的项目业务,并基于所述项目业务,构建项目模型,包括:将所述项目数据传输至大数据中心预设的深度神经网络系统进行训练,生成训练样本;获取训练样本的描述信息,并计算训练样本描述信息之间的依赖度,并通过预设的决策对象和所述依赖度,...

【专利技术属性】
技术研发人员:涂勇
申请(专利权)人:穗保广州科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1