基于张量分解的异构大数据因子特征提取的方法及系统技术方案

技术编号:24331425 阅读:120 留言:0更新日期:2020-05-29 19:45
本发明专利技术公开了基于张量分解的异构大数据因子特征提取的方法,所述方法根据N+1阶张量的正交Tucker‑N分解模型,将变换后的K个张量数据Y

Method and system of feature extraction of heterogeneous big data based on tensor decomposition

【技术实现步骤摘要】
基于张量分解的异构大数据因子特征提取的方法及系统
本专利技术涉及张量数据处理
,尤其涉及基于张量分解的异构大数据因子特征提取的方法及系统。
技术介绍
近年来,随着互联网、物联网、云计算等高新信息技术的迅猛发展,信息社会已经进入大数据时代。现实世界大量的感知设备、智能产品、网络通信、社交媒体等源源不断的产生海量异构的高维数据汇集在信息-物理-社会空间(CPSS)。相对于大数据典型特征,如数据规模大(Volume)、类型多(Variety)、产生速度快(Velocity)、数据不完整(Veracity)、价值密度低(Value)等,多样化的数据来源以及组织方式导致了CPSS大数据具有多源、异构、高维、混杂等特点。同时随着数据的源源不断产生以及不同应用领域数据之间的深度融合,CPSS系统中的数据结构以及关联关系变得更加复杂。直接对CPSS中采集的低质、高维、海量数据进行处理与分析,一方面会给计算机带来巨大的存储与计算开销,另一方面由于数据的低质、冗余效应,直接影响各种模式识别、机器学习等任务的效率与精度。为了解决高维数据带来的维度灾难问题,工程上通常会对原始观测数据进行特征提取与数据降维,这不仅可以降低数据特征空间的维度,减少各种学习任务的数据存储空间,而且可以对原始数据进行降噪以及提高学习任务的精度。现有技术中,通过基于张量的流形学习方法保持原始数据固有流形的局部结构或几何性质来实现降维,但降维提取的数据特征难以保留原始张量数据嵌入在高维空间中的低维流形结构。
技术实现思路
本申请实施例通过提供基于张量分解的异构大数据因子特征提取的方法及系统,解决现有对张量数据降维提取的数据特征难以保留原始张量数据嵌入在高维空间中的低维流形结构的技术问题。一方面,本申请通过本申请的一实施例提供如下技术方案:一种基于张量分解的异构大数据因子特征提取的方法,所述方法包括:获取社会物理信息系统中的K个N阶张量数据I1,I2,…IN表示N个特征空间的维度;基于所述张量数据,获得由元素glm构成的系数矩阵g;其中,σ是正则化参数,是两个所述张量数据的位置距离;对g进行特征值分解,获得对G1/2进行张量化操作,获得系数张量G;将X(k)与G进行多模乘,获得变换后的张量数据根据N+1阶张量的正交Tucker-N分解模型,将Y(k)沿第N+1阶进行串联,获得N+1阶张量Y;对Y进行正交Tucker-N模式分解,获得N+1个正交因子矩阵;基于所述N+1个正交因子矩阵,获得所述张量数据X(k)的低维因子特征;基于所述张量数据X(k)的低维因子特征,获得第m个张量数据的因子特征与第n个张量数据的因子特征之间的加权距离。可选的,所述对G1/2进行张量化操作,获得系数张量G,具体包括:利用如下公式计算获得系数张量G:其中,reshape表示重组函数。可选的,所述将X(k)与G进行多模乘,获得变换后的张量数据具体包括:利用如下公式变化获得其中,具体的元素运算如下:可选的,所述根据N+1阶张量的正交Tucker-N分解模型,将Y(k)沿第N+1阶进行串联,获得N+1阶张量Y,具体包括:利用如下公式计算获得N+1阶张量Y:其中,cat表示数组联结函数。可选的,所述基于所述N+1个正交因子矩阵,获得所述张量数据X(k)的低维因子特征,具体包括:提取所述N+1个正交因子矩阵中第N+1个因子矩阵U(N+1)的每行向量;其中,所述每行向量的第k行对应第k个原始张量数据X(k)的低维因子特征。可选的,所述基于所述张量数据X(k)的低维因子特征,获得第m个张量数据的因子特征与第n个张量数据的因子特征之间的加权距离,具体包括:利用如下公式计算获得第m个张量数据的因子特征与第n个张量数据的因子特征之间的加权距离:其中,JN+1表示正交Tucker-N模式分解中奇异值分解的有效秩。可选的,在基于所述张量数据,获得由元素glm构成的系数矩阵g之前,所述方法还包括:对所述张量数据进行预处理,获得预处理后的张量数据;其中,利用如下公式对所述张量数据进行预处理:所述基于所述张量数据,获得由元素glm构成的系数矩阵g,包括:基于所述预处理后的张量数据,获得由元素glm构成的系数矩阵g。另一方面,本申请通过本申请的另一实施例提供一种基于张量分解的异构大数据因子特征提取的系统,所述系统包括:数据获取模块,用于获取社会物理信息系统中的K个N阶张量数据I1,I2,…IN表示N个特征空间的维度;第一获得模块,用于基于所述张量数据,获得由元素glm构成的系数矩阵g;其中,σ是正则化参数,是两个所述张量数据的位置距离;第二获得模块,用于对g进行特征值分解,获得第三获得模块,用于对G1/2进行张量化操作,获得系数张量G;第四获得模块,用于将X(k)与G进行多模乘,获得变换后的张量数据第五获得模块,用于根据N+1阶张量的正交Tucker-N分解模型,将Y(k)沿第N+1阶进行串联,获得N+1阶张量Y;第六获得模块,用于对Y进行正交Tucker-N模式分解,获得N+1个正交因子矩阵;第七获得模块,用于基于所述N+1个正交因子矩阵,获得所述张量数据X(k)的低维因子特征;第八获得模块,用于基于所述张量数据X(k)的低维因子特征,获得第m个张量数据的因子特征与第n个张量数据的因子特征之间的加权距离。本专利技术公开了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述方法的步骤。本申请实施例中提供的一个或多个技术方案,至少具有如下技术效果或优点:本专利技术的方法,首先获取社会物理信息系统中的K个N阶张量数据I1,I2,…IN表示N个特征空间的维度;为了使张量数据所提取低维特征能够保持原始张量数据的张量距离,并减少运算复杂度,需要对样本进行多模乘变换,而在此之前,需要首先基于所述张量数据,获得由元素glm构成的系数矩阵g;其中,σ是正则化参数,是两个所述张量数据的位置距离;对g进行特征值分解,获得对G1/2进行张量化操作,获得系数张量G;在获得系数张量后,为了避免大规模样本数据在向量化操作以及矩阵乘法变换时,带来额外的时间开销,直接将X(k)与G进行多模乘,获得变换后的张量数据为了提取张量数据的有效特征,并且尽可能的保持原始多个张量数据之间的全局信息,本专利技术的方法根据N+1阶张量的正交Tucker-N分解模型,将变换后的K个张量数据Y(k)沿第N+1阶进行串联,获得N+1阶张量Y;并对Y进行正交Tucker-N模式分解,获得N+1个正交因子矩阵;基于所述N+1个正交因子矩阵,获得所述张量数据X(k)的低维因子特征;基于所述张量数据X(k)的低维因子特征,获得第m个张量数据的因子特征与第n个张量数据的因子本文档来自技高网...

【技术保护点】
1.基于张量分解的异构大数据因子特征提取的方法,其特征在于,所述方法包括:/n获取社会物理信息系统中的K个N阶张量数据

【技术特征摘要】
1.基于张量分解的异构大数据因子特征提取的方法,其特征在于,所述方法包括:
获取社会物理信息系统中的K个N阶张量数据I1,I2,…IN表示N个特征空间的维度;
基于所述张量数据,获得由元素glm构成的系数矩阵g;其中,σ是正则化参数,是两个所述张量数据的位置距离;
对g进行特征值分解,获得
对G1/2进行张量化操作,获得系数张量G;
将X(k)与G进行多模乘,获得变换后的张量数据
根据N+1阶张量的正交Tucker-N分解模型,将Y(k)沿第N+1阶进行串联,获得N+1阶张量Y;
对Y进行正交Tucker-N模式分解,获得N+1个正交因子矩阵;
基于所述N+1个正交因子矩阵,获得所述张量数据X(k)的低维因子特征;
基于所述张量数据X(k)的低维因子特征,获得第m个张量数据的因子特征与第n个张量数据的因子特征之间的加权距离。


2.如权利要求1所述的方法,其特征在于,所述对G1/2进行张量化操作,获得系数张量G,具体包括:
利用如下公式计算获得系数张量G:



其中,reshape表示重组函数。


3.如权利要求2所述的方法,其特征在于,所述将X(k)与G进行多模乘,获得变换后的张量数据具体包括:
利用如下公式变化获得



其中,具体的元素运算如下:





4.如权利要求3所述的方法,其特征在于,所述根据N+1阶张量的正交Tucker-N分解模型,将Y(k)沿第N+1阶进行串联,获得N+1阶张量Y,具体包括:
利用如下公式计算获得N+1阶张量Y:



其中,cat表示数组联结函数。


5.如权利要求4所述的方法,其特征在于,所述基于所述N+1个正交因子矩阵,获得所述张量数据X(k)的低维因子特征,具体包括:
提取所述N+1个正交因子矩阵中第N+1个因子矩阵U(N+1)的每行向量;其中,所述每行向量的第k行对应第k个原始张量数据X(k)的低维因子特征。


6.如权利要求5所述的方法,其特征在于,所述基于所述张量数据X(k)的低维因子特征,获得第m个张量数据的因子特...

【专利技术属性】
技术研发人员:杨天若高源赵雅靓杨静
申请(专利权)人:华中科技大学鄂州工业技术研究院华中科技大学
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1