System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于大数据结合人工智能实现数据的筛选方法及系统技术方案_技高网

基于大数据结合人工智能实现数据的筛选方法及系统技术方案

技术编号:41070640 阅读:4 留言:0更新日期:2024-04-24 11:26
本发明专利技术涉及数据筛选领域,提出了基于大数据结合人工智能实现数据的筛选方法及系统,所述方法包括:获取待筛选的初始数据,并对其进行数据清洗,对初始清洗数据进行标准化处理,接着提取标准数据特征,并识别多重共线性,并计算其中特征相似度,并对基准特征进行数据特征标注,得到标注特征数据,构建标记数据库,训练预设的数据筛选模型,利用该模型对标准化数据进行分类初筛,然后识别初筛分类数据的数据类别,并基于数据类别对其进行优化验证,得到优化验证数据,并查询对应的优化指标,并基于优化指标优化其模型,得到优化模型,利用优化模型对初筛分类数据进行二次筛选,得到所需的筛选数据。本发明专利技术可以提高数据筛选的筛选准确率。

【技术实现步骤摘要】

本专利技术涉及数据筛选领域,尤其涉及基于大数据结合人工智能实现数据的筛选方法及系统


技术介绍

1、随着信息技术的快速发展,大数据和人工智能被广泛应用于各个领域。在数据处理方面,大数据和人工智能可以有效地筛选和分析庞大的数据集,提取有用的信息和模式。

2、目前,常用的数据筛选方法有通过统计学方法、机器学习等方法,用来实现数据筛选,其中,统计学方法是通过分析数据的统计特性和模式来进行筛选,可以处理大规模数据;机器学习的筛选方法利用机器学习算法从大量标记好的数据中学习数据筛选规则,能够自动学习和适应数据的变化,从而实现数据筛选;然而,上述方法容易因为规则的不全面或不准确,从而导致数据筛选的筛选准确率不佳,因此,需要一种基于大数据结合人工智能实现数据的筛选方法及系统,以提高数据筛选的筛选准确率。


技术实现思路

1、本专利技术提供的基于大数据结合人工智能实现数据的筛选方法及系统,其主要目的在于提高数据筛选的筛选准确率。

2、为实现上述目的,本专利技术提供的基于大数据结合人工智能实现数据的筛选方法,包括:

3、获取待筛选的初始数据,对所述初始数据进行数据清洗,得到初始清洗数据,对所述初始清洗数据进行标准化处理,得到标准化数据;

4、对所述标准化数据进行特征提取,得到标准数据特征,识别所述标准数据特征对应的多重共线性,基于所述多重共线性,确定所述标准数据特征对应的基准特征,计算所述基准特征之间的特征相似度;

5、基于所述特征相似度,确定所述标准化数据对应的筛选需求,基于所述筛选需求,对所述基准特征进行数据特征标注,得到标注特征数据;

6、构建所述标注特征数据对应的标注数据库,利用所述标注数据库中数据对预设的数据筛选模型进行模型训练,得到训练好的数据筛选模型,利用所述训练好的数据筛选模型对所述标准化数据进行分类初筛,得到初筛分类数据;

7、识别所述初筛分类数据对应的数据类别,基于所述数据类别,对所述初筛分类数据进行优化验证,得到优化验证数据,查询所述优化验证数据对应的优化指标,基于所述优化指标,优化所述训练好的数据筛选模型,得到优化的数据筛选模型,利用所述优化的数据筛选模型对初筛分类数据进行二次筛选,得到所述初始数据对应的筛选数据。

8、可选地,所述对所述初始数据进行数据清洗,得到初始清洗数据,包括:

9、识别所述初始数据中的缺失值;

10、对所述缺失值进行函数统计,得到所述缺失值对应的数量条目;

11、基于所述数量条目,对所述初始数据进行插补缺失值,得到填充数据;

12、将所述填充数据作为所述初始数据对应的初始清洗数据。

13、可选地,所述对所述初始清洗数据进行标准化处理,得到标准化数据,包括:

14、将所述初始清洗数据加载至预设的数据库,识别所述数据库中数据对应的数据列;

15、计算所述数据列的平均值和标准差;

16、基于所述平均值和所述标准差,计算所述所述数据列对应的偏差程度;

17、基于所述偏差程度,对所述初始清洗数据进行缩放标准化,得到标准化数据。

18、可选地,所述识别所述标准数据特征对应的多重共线性,包括:

19、查询所述标准数据特征对应的特征参数,计算所述特征参数之间的相关系数矩阵;

20、识别所述相关系数矩阵中对应的方差膨胀因子;

21、基于所述方差膨胀因子,确定所述标准数据特征对应的多重共线性。

22、可选地,所述计算所述基准特征之间的特征相似度,包括:

23、利用下述公式计算所述基准特征之间的特征相似度:

24、

25、其中,tz表示所述基准特征之间的特征相似度,n表示所述基准特征对应的特征向量,i表示所述特征向量中的索引,表示所述特征向量中特征x对应的第i个元素,表示所述特征向量中特征y对应的第i个元素。

26、可选地,所述基于所述筛选需求,对所述基准特征进行数据特征标注,得到标注特征数据,包括:

27、基于所述筛选需求,确定所述基准特征中特征数据点;

28、提取所述特征数据点对应的样本数据点;

29、对所述样本数据点进行数据点整合,得到整合数据矩阵;

30、对所述整合数据矩阵中数据进行数据特征标注,得到得到标注特征数据。

31、可选地,所述识别所述初筛分类数据对应的数据类别,包括:

32、识别所述初筛分类数据中对应的数据形式;

33、基于所述数据形式,提取所述初筛分类数据中的分类特征;

34、对所述分类特征进行特征编码,得到特征分类码;

35、对所述特征分类码进行类别解码,得到所述初筛分类数据对应的数据类别。

36、可选地,所述基于所述子集参数,计算所述初筛分类数据对应的分类准确率,包括:

37、利用下述公式计算所述初筛分类数据对应的分类准确率:

38、

39、其中,zq表示所述初筛分类数据对应的分类准确率,m表示所述子集参数对应的数据样本,f(i)表示所述数据样本对应的第i个样本的分类准确度。

40、可选地,所述查询所述优化验证数据对应的优化指标,包括:

41、确定所述优化验证数据中对应的优化目标;

42、基于所述优化目标,识别所述优化验证数据对应的验证数据;

43、基于所述验证数据,计算所述优化验证数据对应的验证指标;

44、对所述验证指标进行指标优化,得到所述优化验证数据对应的优化指标。

45、为了解决上述问题,本专利技术还提供基于大数据结合人工智能实现数据的筛选系统,所述系统包括:

46、标准化模块,用于获取待筛选的初始数据,对所述初始数据进行数据清洗,得到初始清洗数据,对所述初始清洗数据进行标准化处理,得到标准化数据;

47、相似度计算模块,用于对所述标准化数据进行特征提取,得到标准数据特征,识别所述标准数据特征对应的多重共线性,基于所述多重共线性,确定所述标准数据特征对应的基准特征,计算所述基准特征之间的特征相似度;

48、特征标注模块,用于基于所述特征相似度,确定所述标准化数据对应的筛选需求,基于所述筛选需求,对所述基准特征进行数据特征标注,得到标注特征数据;

49、分类初筛模块,用于构建所述标注特征数据对应的标注数据库,利用所述标注数据库中数据对预设的数据筛选模型进行模型训练,得到训练好的数据筛选模型,利用所述训练好的数据筛选模型对所述标准化数据进行分类初筛,得到初筛分类数据;

50、模型优化模块,用于识别所述初筛分类数据对应的数据类别,基于所述数据类别,对所述初筛分类数据进行优化验证,得到优化验证数据,查询所述优化验证数据对应的优化指标,基于所述优化指标,优化所述训练好的数据筛选模型,得到优化的数据筛选模型本文档来自技高网...

【技术保护点】

1.基于大数据结合人工智能实现数据的筛选方法,其特征在于,所述方法包括:

2.如权利要求1所述的基于大数据结合人工智能实现数据的筛选方法,其特征在于,所述对所述初始数据进行数据清洗,得到初始清洗数据,包括:

3.如权利要求1所述的基于大数据结合人工智能实现数据的筛选方法,其特征在于,所述对所述初始清洗数据进行标准化处理,得到标准化数据,包括:

4.如权利要求1所述的基于大数据结合人工智能实现数据的筛选方法,其特征在于,所述识别所述标准数据特征对应的多重共线性,包括:

5.如权利要求1所述的基于大数据结合人工智能实现数据的筛选方法,其特征在于,所述计算所述基准特征之间的特征相似度,包括:

6.如权利要求1所述的基于大数据结合人工智能实现数据的筛选方法,其特征在于,所述基于所述筛选需求,对所述基准特征进行数据特征标注,得到标注特征数据,包括:

7.如权利要求1所述的基于大数据结合人工智能实现数据的筛选方法,其特征在于,所述识别所述初筛分类数据对应的数据类别,包括:

8.如权利要求7所述的基于大数据结合人工智能实现数据的筛选方法,其特征在于,所述基于所述子集参数,计算所述初筛分类数据对应的分类准确率,包括:

9.如权利要求1所述的基于大数据结合人工智能实现数据的筛选方法,其特征在于,所述查询所述优化验证数据对应的优化指标,包括:

10.基于大数据结合人工智能实现数据的筛选系统,其特征在于,用于执行如权利要求1-9中任意一项所述的基于大数据结合人工智能实现数据的筛选方法,所述系统包括:

...

【技术特征摘要】

1.基于大数据结合人工智能实现数据的筛选方法,其特征在于,所述方法包括:

2.如权利要求1所述的基于大数据结合人工智能实现数据的筛选方法,其特征在于,所述对所述初始数据进行数据清洗,得到初始清洗数据,包括:

3.如权利要求1所述的基于大数据结合人工智能实现数据的筛选方法,其特征在于,所述对所述初始清洗数据进行标准化处理,得到标准化数据,包括:

4.如权利要求1所述的基于大数据结合人工智能实现数据的筛选方法,其特征在于,所述识别所述标准数据特征对应的多重共线性,包括:

5.如权利要求1所述的基于大数据结合人工智能实现数据的筛选方法,其特征在于,所述计算所述基准特征之间的特征相似度,包括:

6.如权利要求1所述的基于大数据结合人工智能实现数...

【专利技术属性】
技术研发人员:黄泽文陈军勇
申请(专利权)人:深圳天朴科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1