基于拓扑数据分析的大数据特征提取和降维方法技术

技术编号:40421716 阅读:15 留言:0更新日期:2024-02-20 22:40
本发明专利技术提供了基于拓扑数据分析的大数据特征提取和降维方法,属于大数据提取领域,包括以下步骤:步骤一:采用一种基于核密度估计的滤波函数,对每个数据点计算其核密度值;步骤二:采用一种基于局部线性嵌入的复形类型,对每个子集中的数据点进行局部线性重构;步骤三:采用一种基于信息熵的持续同调维度选择方法,对每个子集中不同维度上的条形码图进行信息熵计算;步骤四:采用一种基于自适应编码的特征向量长度选择方法,对每个子集中的拓扑特征向量进行自适应编码,本专利能够根据数据本身的特点,动态地调整滤波函数等参数,提高了方法的灵活性和适应性,同时能够充分地利用不同维度上的拓扑特征,提高了方法的有效性和准确性。

【技术实现步骤摘要】

本专利技术主要涉及大数据特征提取,具体涉及基于拓扑数据分析的大数据特征提取和降维方法


技术介绍

1、大数据技术能够在统一的平台对大量的数据进行统一处理,利用大数据技术,能够整合处理资源,将零散的数据集中处理,从而提高了数据处理的效率。

2、而现有方法通常使用固定的滤波函数对数据进行排序和划分,而不考虑数据本身的分布特征和变化趋势,导致划分结果不够合理和稳定;同时现有方法通常使用固定的复形类型(如vietoris-rips复形或alpha复形)来构造每个子集中的拓扑空间,而不考虑不同子集中数据点之间的相似性和差异性,导致复形结构不够灵活和适应性;现有方法通常使用固定的持续同调维度来计算每个子集中的条形码图,而不考虑不同维度上的拓扑特征对数据表示的贡献和重要性,导致特征提取不够充分和有效;现有方法通常使用固定的特征向量长度来表示每个子集中的拓扑特征,而不考虑不同子集中的拓扑复杂度和信息量,导致特征向量不够均衡和精确;

3、这些不足之处都会影响基于拓托数据分析的大数据特征提取和降维方法的性能和效果,限制了其在实际应用中的广泛性和可靠性。本文档来自技高网...

【技术保护点】

1.基于拓扑数据分析的大数据特征提取和降维方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于拓扑数据分析的大数据特征提取和降维方法,其特征在于,所述步骤一的具体操作方法为:设原始数据点集为X={x1,x2,…,xn},其中每个数据点xi是一个d维向量,即xi=(xi1,xi2,…,xid)T,则核密度估计的步骤如下:

3.根据权利要求2所述的基于拓扑数据分析的大数据特征提取和降维方法,其特征在于,所述步骤一中的S2过程中,还需统计该区域内的数据点个数ni,即

4.根据权利要求1所述的基于拓扑数据分析的大数据特征提取和降维方法,其特征在于,所...

【技术特征摘要】

1.基于拓扑数据分析的大数据特征提取和降维方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于拓扑数据分析的大数据特征提取和降维方法,其特征在于,所述步骤一的具体操作方法为:设原始数据点集为x={x1,x2,…,xn},其中每个数据点xi是一个d维向量,即xi=(xi1,xi2,…,xid)t,则核密度估计的步骤如下:

3.根据权利要求2所述的基于拓扑数据分析的大数据特征提取和降维方法,其特征在于,所述步骤一中的s2过程中,还需统计该区域内的数据点个数ni,即

4.根据权利要求1所述的基于拓扑数据分析的大数据特征提取和降维方法,其特征在于,所述步骤二的具体操作方法为:设每个子集中的数据点为y={y1,y2,…,ym},其中每个数据点yi是一个d维向量,即yi=(yi1,yi2,…,yid)t,则局部线性重构的步骤如下:

5.根据权利要求4所述的基于拓扑数据分析的大数据特征提取和降维方法,其特征在于,所述步骤二中的s1过程中,参数k是一个正整数,称为最近邻数,它决定了每个数据点所考虑的邻域范围,同时k越大,邻域范围越大,局部线性重构...

【专利技术属性】
技术研发人员:朱国栋
申请(专利权)人:安徽信息工程学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1