本发明专利技术公开了基于张量分解的异构大数据核心特征提取的方法,所述方法根据N+1阶张量的正交Tucker‑N分解模型,将变换后的K个张量数据Y
Method and system of core feature extraction of heterogeneous big data based on tensor decomposition
【技术实现步骤摘要】
基于张量分解的异构大数据核心特征提取的方法及系统
本专利技术涉及张量数据处理
,尤其涉及基于张量分解的异构大数据核心特征提取的方法及系统。
技术介绍
近年来,随着互联网、物联网、云计算等高新信息技术的迅猛发展,信息社会已经进入大数据时代。现实世界大量的感知设备、智能产品、网络通信、社交媒体等源源不断的产生海量异构的高维数据汇集在信息-物理-社会空间(CPSS,CyberPhysicalSocialSystem)。相对于大数据典型特征,如数据规模大(Volume)、类型多(Variety)、产生速度快(Velocity)、数据不完整(Veracity)、价值密度低(Value)等,多样化的数据来源以及组织方式导致了CPSS大数据具有多源、异构、高维、混杂等特点。同时随着数据的源源不断产生以及不同应用领域数据之间的深度融合,CPSS系统中的数据结构以及关联关系变得更加复杂。直接对CPSS中采集的低质、高维、海量数据进行处理与分析,一方面会给计算机带来巨大的存储与计算开销,另一方面由于数据的低质、冗余效应,直接影响各种模式识别、机器学习等任务的效率与精度。为了解决高维数据带来的维度灾难问题,工程上通常会对原始观测数据进行特征提取与数据降维,这不仅可以降低数据特征空间的维度,减少各种学习任务的数据存储空间,而且可以对原始数据进行降噪以及提高学习任务的精度。现有技术中,通过基于张量的流形学习方法保持原始数据固有流形的局部结构或几何性质来实现降维,但降维提取的数据特征难以保留原始张量数据嵌入在高维空间中的低维流形结构。
技术实现思路
本申请实施例通过提供基于张量分解的异构大数据核心特征提取的方法及系统,解决现有对张量数据降维提取的数据特征难以保留原始张量数据嵌入在高维空间中的低维流形结构的技术问题。一方面,本申请通过本申请的一实施例提供如下技术方案:一种基于张量分解的异构大数据核心特征提取的方法,所述方法包括:获取社会物理信息系统中的K个N阶张量数据I1,I2,…IN表示N个特征空间的维度;基于所述张量数据,获得由元素glm构成的系数矩阵g;其中,σ是正则化参数,是两个所述张量数据的位置距离;对g进行特征值分解,获得对G1/2进行张量化操作,获得系数张量G;将X(k)与G进行多模乘,获得变换后的张量数据根据N+1阶张量的正交Tucker-N分解模型,将Y(k)沿第N+1阶进行串联,获得N+1阶张量Y;对Y进行正交Tucker-N模式分解,获得N个正交因子矩阵和核心张量F;基于所述N个正交因子矩阵和所述核心张量F,获得所述张量数据X(k)的低维核心特征。可选的,所述对G1/2进行张量化操作,获得系数张量G,具体包括:利用如下公式计算获得系数张量G:其中,reshape表示重组函数。可选的,所述将X(k)与G进行多模乘,获得变换后的张量数据具体包括:利用如下公式变化获得其中,具体的元素运算如下:可选的,所述根据N+1阶张量的正交Tucker-N分解模型,将Y(k)沿第N+1阶进行串联,获得N+1阶张量Y,具体包括:利用如下公式计算获得N+1阶张量Y:其中,cat表示数组联结函数。可选的,所述对Y进行正交Tucker-N模式分解,获得N个正交因子矩阵和核心张量F,具体包括:S1、对Y进行高阶奇异值分解,获得高阶奇异值分解结果;S2、利用所述高阶奇异值分解结果初始化前N个因子矩阵U(1),U(2),…,U(N),令k=0;S3、令k=k+1,并计算S(-n)←Y×1U(1)T…×n-1U(n-1)T×n+1U(n+1)T…×NU(N)T;S4、对进行矩阵化展开,计算奇异值矩阵S(n)(-n)=U∑VT,确定有效秩Jn,n=1,2,…,N;S5、计算F(k)←Y×1U(1)T×2U(2)T…×NU(N)T,并判断核心张量是否满足收敛条件若否,则返回S3,迭代直至满足所述收敛条件,获得N个正交因子矩阵和一个核心张量可选的,所述基于所述N个正交因子矩阵和所述核心张量F,获得所述张量数据X(k)的低维核心特征,具体包括:固定所述核心张量的第N+1阶的指标为k,获得N阶子张量其中,对应第k个张量数据的低维核心特征,任意两个张量数据的低维核心特征距离等于对应的所述两个张量数据的之间的张量距离。可选的,在基于所述张量数据,获得由元素glm构成的系数矩阵g之前,所述方法还包括:对所述张量数据进行预处理,获得预处理后的张量数据;其中,利用如下公式对所述张量数据进行预处理:所述基于所述张量数据,获得由元素glm构成的系数矩阵g,包括:基于所述预处理后的张量数据,获得由元素glm构成的系数矩阵g。另一方面,本申请通过本申请的另一实施例提供一种基于张量分解的异构大数据核心特征提取的系统,所述系统包括:数据获取模块,用于获取社会物理信息系统中的K个N阶张量数据I1,I2,…IN表示N个特征空间的维度;第一获得模块,用于基于所述张量数据,获得由元素glm构成的系数矩阵g;其中,σ是正则化参数,是两个所述张量数据的位置距离;第二获得模块,用于对g进行特征值分解,获得第三获得模块,用于对G1/2进行张量化操作,获得系数张量G;第四获得模块,用于将X(k)与G进行多模乘,获得变换后的张量数据第五获得模块,用于根据N+1阶张量的正交Tucker-N分解模型,将Y(k)沿第N+1阶进行串联,获得N+1阶张量Y;第六获得模块,用于对Y进行正交Tucker-N模式分解,获得N个正交因子矩阵和核心张量F;第七获得模块,用于基于所述N个正交因子矩阵和所述核心张量F,获得所述张量数据X(k)的低维核心特征。本专利技术公开了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述方法的步骤。本申请实施例中提供的一个或多个技术方案,至少具有如下技术效果或优点:本专利技术的方法,首先获取社会物理信息系统中的K个N阶张量数据I1,I2,…IN表示N个特征空间的维度;为了使张量数据所提取低维特征能够保持原始张量数据的张量距离,并减少运算复杂度,需要对样本进行多模乘变换,而在此之前,需要首先基于所述张量数据,获得由元素glm构成的系数矩阵g;其中,σ是正则化参数,是两个所述张量数据的位置距离;对g进行特征值分解,获得对G1/2进行张量化操作,获得系数张量G;在获得系数张量后,为了避免大规模样本数据在向量化操作以及矩阵乘法变换时,带来额外的时间开销,直接将X(k)与G进行多模乘,获得变换后的张量数据为了提取张量数据的有效特征,并且尽可能的保持原始多个张量数据之间的全局信息,本专利技术的方法根据N+1阶张量的正交Tucker-N分解模型,将变换后的K个张量数据Y(k)沿第N+1阶本文档来自技高网...
【技术保护点】
1.基于张量分解的异构大数据核心特征提取的方法,其特征在于,所述方法包括:/n获取社会物理信息系统中的K个N阶张量数据
【技术特征摘要】
1.基于张量分解的异构大数据核心特征提取的方法,其特征在于,所述方法包括:
获取社会物理信息系统中的K个N阶张量数据I1,I2,…INN表示N个特征空间的维度;
基于所述张量数据,获得由元素glm构成的系数矩阵g;其中,σ是正则化参数,是两个所述张量数据的位置距离;
对g进行特征值分解,获得
对G1/2进行张量化操作,获得系数张量G;
将X(k)与G进行多模乘,获得变换后的张量数据
根据N+1阶张量的正交Tucker-N分解模型,将Y(k)沿第N+1阶进行串联,获得N+1阶张量Y;
对Y进行正交Tucker-N模式分解,获得N个正交因子矩阵和核心张量F;
基于所述N个正交因子矩阵和所述核心张量F,获得所述张量数据X(k)的低维核心特征。
2.如权利要求1所述的方法,其特征在于,所述对G1/2进行张量化操作,获得系数张量G,具体包括:
利用如下公式计算获得系数张量G:
其中,reshape表示重组函数。
3.如权利要求2所述的方法,其特征在于,所述将X(k)与G进行多模乘,获得变换后的张量数据具体包括:
利用如下公式变化获得
其中,具体的元素运算如下:
4.如权利要求3所述的方法,其特征在于,所述根据N+1阶张量的正交Tucker-N分解模型,将Y(k)沿第N+1阶进行串联,获得N+1阶张量Y,具体包括:
利用如下公式计算获得N+1阶张量Y:
其中,cat表示数组联结函数。
5.如权利要求4所述的方法,其特征在于,所述对Y进行正交Tucker-N模式分解,获得核心张量F,具体包括:
S1、对Y进行高阶奇异值分解,获得高阶奇异值分解结果;
S2、利用所述高阶奇异值分解结果初始化前N个因子矩阵U(1),U(2),…,U(N),令k=0;
S3、令k=k+1,并计算
S(-n)←y×1U(1)T…×n-1U(n-1)T×n+1U(n+1)T…×NU(N)T;
S4、对S(-n)进行矩阵化展开,计算奇异值矩阵S(n)(-n)=U∑VT,确定有效秩Jn,n=1,2,...,N;
S5、计算F(k)←y×1U(1)T×2U(2)T…×...
【专利技术属性】
技术研发人员:杨天若,高源,赵雅靓,杨静,
申请(专利权)人:华中科技大学鄂州工业技术研究院,华中科技大学,
类型:发明
国别省市:湖北;42
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。