高维特征提取方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:33835405 阅读:8 留言:0更新日期:2022-06-16 11:50
本申请实施例属于人工智能领域,涉及一种高维特征提取方法,包括获取原始高维数据的特征数据,构建观测数据样本,其中,观测数据样本包括离散变量和连续变量;获取类别标签,根据类别标签对连续变量进行分组,得到分组变量,计算分组变量的排序和;基于预设检测算法对排序和进行计算得到评估参数,对所有评估参数进行转置得到相关性向量,根据相关性向量对原始高维数据进行特征筛选得到标记特征;获取目标特征筛选模型和连续参数,将标记特征和连续参数输入至目标特征筛选模型中,计算得到目标降维特征。本申请还提供一种高维特征提取装置、计算机设备及存储介质。此外,目标降维特征可存储于区块链中。本申请实现了对高维数据的精确特征提取。确特征提取。确特征提取。

【技术实现步骤摘要】
高维特征提取方法、装置、计算机设备及存储介质


[0001]本申请涉及人工智能
,尤其涉及一种高维特征提取方法、装置、计算机设备及存储介质。

技术介绍

[0002]随着生物检测的高速发展,对生物特征进行检测并提取其中的有效特征是亟需解决的问题。然而,与生物相关的组学数据通常都是典型的超高维数据,例如蛋白组、转录组(RNA)、基因组(DNA)等,在这个数据科学、人工智能和医疗结合愈发深入的年代,基于超高维数据的特征筛选模型将会变得越来越重要。当前,通过模型对高维数据进行特征提取主要通过正则化的方法,然而,当输入的特征数是样本量的指数级时(比如样本量为100,特征数为10000时),通过正则化方法则难以对高维数据进行精确地特征提取。

技术实现思路

[0003]本申请实施例的目的在于提出一种高维特征提取方法、装置、计算机设备及存储介质,以解决高维数据特征提取准确率低下的技术问题。
[0004]为了解决上述技术问题,本申请实施例提供一种高维特征提取方法,采用了如下所述的技术方案:
[0005]获取原始高维数据的特征数据,构建每个所述特征数据的观测数据样本,其中,所述观测数据样本包括离散变量和连续变量;
[0006]获取所述离散变量的类别标签,根据所述类别标签对所述连续变量进行分组,得到多个分组变量,计算每个所述分组变量的排序和;
[0007]基于预设检测算法对每个所述特征数据的所有所述排序和进行计算,得到每个所述特征数据的评估参数,对所有所述评估参数进行转置,得到所述原始高维数据的相关性向量,根据所述相关性向量对所述原始高维数据进行特征筛选,得到标记特征;
[0008]获取目标特征筛选模型和每个所述特征数据对应的连续参数,将所述标记特征和所述连续参数输入至所述目标特征筛选模型中,计算得到所述原始高维数据的目标降维特征。
[0009]进一步的,所述基于预设检测算法对每个所述特征数据的所有所述排序和进行计算,得到每个所述特征数据的评估参数的步骤包括:
[0010]获取所述预设检测算法的检测函数,根据所述检测函数对每个所述特征数据的所有所述排序和进行计算,得到所述特征数据的检测统计量;
[0011]获取目标分布表,基于所述检测统计量从所述目标分布表查找得到所述特征数据的评估参数。
[0012]进一步的,所述基于所述检测统计量从所述目标分布表查找得到所述特征数据的评估参数的步骤包括:
[0013]根据所述类别标签计算所述特征数据的自由度;
[0014]基于所述自由度和所述检测统计量从所述目标分布表,查找得到所述特征数据的评估参数。
[0015]进一步的,所述计算每个所述分组变量的排序和的步骤包括:
[0016]对所述观测数据样本的所有所述连续变量按照数值大小进行升序排序,得到每个所述连续变量的排序编号;
[0017]获取所述分组变量中的样本量,根据所述样本量和所述排序编号计算得到所述分组变量的排序和。
[0018]进一步的,所述根据所述相关性向量对所述原始高维数据进行特征筛选,得到标记特征的步骤包括:
[0019]对所述相关性向量的所有元素进行升序排序,得到总特征集;
[0020]获取预设筛选阈值,根据所述预设筛选阈值对所述总特征集中的元素进行筛选得到筛选向量,获取所述筛选向量对应的特征数据,得到所述标记特征。
[0021]进一步的,所述将所述标记特征和所述连续参数输入至所述目标特征筛选模型中,计算得到所述原始高维数据的目标降维特征的步骤包括:
[0022]获取所述目标特征筛选模型的惩罚函数;
[0023]根据所述标记特征和所述连续变量对所述惩罚函数进行求解,得到稀疏解,确定所述稀疏解为所述目标降维特征。
[0024]进一步的,所述将所述标记特征和所述连续参数输入至所述目标特征筛选模型中,计算得到所述原始高维数据的目标降维特征的步骤,还包括:
[0025]基于所述目标特征筛选模型计算所述标记特征和连续参数的相关性指数,根据所述相关性指数对所述标记特征进行筛选,得到所述目标降维特征。
[0026]为了解决上述技术问题,本申请实施例还提供一种高维特征提取装置,采用了如下所述的技术方案:
[0027]构建模块,用于获取原始高维数据的特征数据,构建每个所述特征数据的观测数据样本,其中,所述观测数据样本包括离散变量和连续变量;
[0028]分组模块,用于获取所述离散变量的类别标签,根据所述类别标签对所述连续变量进行分组,得到多个分组变量,计算每个所述分组变量的排序和;
[0029]评估模块,用于基于预设检测算法对每个所述特征数据的所有所述排序和进行计算,得到每个所述特征数据的评估参数,对所有所述评估参数进行转置,得到所述原始高维数据的相关性向量,根据所述相关性向量对所述原始高维数据进行特征筛选,得到标记特征;
[0030]计算模块,用于获取目标特征筛选模型和每个所述特征数据对应的连续参数,将所述标记特征和所述连续参数输入至所述目标特征筛选模型中,计算得到所述原始高维数据的目标降维特征。
[0031]为了解决上述技术问题,本申请实施例还提供一种计算机设备,采用了如下所述的技术方案:
[0032]获取原始高维数据的特征数据,构建每个所述特征数据的观测数据样本,其中,所述观测数据样本包括离散变量和连续变量;
[0033]获取所述离散变量的类别标签,根据所述类别标签对所述连续变量进行分组,得
到多个分组变量,计算每个所述分组变量的排序和;
[0034]基于预设检测算法对每个所述特征数据的所有所述排序和进行计算,得到每个所述特征数据的评估参数,对所有所述评估参数进行转置,得到所述原始高维数据的相关性向量,根据所述相关性向量对所述原始高维数据进行特征筛选,得到标记特征;
[0035]获取目标特征筛选模型和每个所述特征数据对应的连续参数,将所述标记特征和所述连续参数输入至所述目标特征筛选模型中,计算得到所述原始高维数据的目标降维特征。
[0036]为了解决上述技术问题,本申请实施例还提供一种计算机可读存储介质,采用了如下所述的技术方案:
[0037]获取原始高维数据的特征数据,构建每个所述特征数据的观测数据样本,其中,所述观测数据样本包括离散变量和连续变量;
[0038]获取所述离散变量的类别标签,根据所述类别标签对所述连续变量进行分组,得到多个分组变量,计算每个所述分组变量的排序和;
[0039]基于预设检测算法对每个所述特征数据的所有所述排序和进行计算,得到每个所述特征数据的评估参数,对所有所述评估参数进行转置,得到所述原始高维数据的相关性向量,根据所述相关性向量对所述原始高维数据进行特征筛选,得到标记特征;
[0040]获取目标特征筛选模型和每个所述特征数据对应的连续参数,将所述标记特征和所述连续参数输入至所述目标特征筛选模型中,计算得到所述原始高维数据的目标降维本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种高维特征提取方法,其特征在于,包括下述步骤:获取原始高维数据的特征数据,构建每个所述特征数据的观测数据样本,其中,所述观测数据样本包括离散变量和连续变量;获取所述离散变量的类别标签,根据所述类别标签对所述连续变量进行分组,得到多个分组变量,计算每个所述分组变量的排序和;基于预设检测算法对每个所述特征数据的所有所述排序和进行计算,得到每个所述特征数据的评估参数,对所有所述评估参数进行转置,得到所述原始高维数据的相关性向量,根据所述相关性向量对所述原始高维数据进行特征筛选,得到标记特征;获取目标特征筛选模型和每个所述特征数据对应的连续参数,将所述标记特征和所述连续参数输入至所述目标特征筛选模型中,计算得到所述原始高维数据的目标降维特征。2.根据权利要求1所述的高维特征提取方法,其特征在于,所述基于预设检测算法对每个所述特征数据的所有所述排序和进行计算,得到每个所述特征数据的评估参数的步骤包括:获取所述预设检测算法的检测函数,根据所述检测函数对每个所述特征数据的所有所述排序和进行计算,得到所述特征数据的检测统计量;获取目标分布表,基于所述检测统计量从所述目标分布表查找得到所述特征数据的评估参数。3.根据权利要求2所述的高维特征提取方法,其特征在于,所述基于所述检测统计量从所述目标分布表查找得到所述特征数据的评估参数的步骤包括:根据所述类别标签计算所述特征数据的自由度;基于所述自由度和所述检测统计量从所述目标分布表,查找得到所述特征数据的评估参数。4.根据权利要求1所述的高维特征提取方法,其特征在于,所述计算每个所述分组变量的排序和的步骤包括:对所述观测数据样本的所有所述连续变量按照数值大小进行升序排序,得到每个所述连续变量的排序编号;获取所述分组变量中的样本量,根据所述样本量和所述排序编号计算得到所述分组变量的排序和。5.根据权利要求1所述的高维特征提取方法,其特征在于,所述根据所述相关性向量对所述原始高维数据进行特征筛选,得到标记特征的步骤包括:对所述相关性向量的所有元素进行升序排序,得到总特征集;获取预设筛选阈值,根据所述预设筛选...

【专利技术属性】
技术研发人员:孙金辉马骏王少军
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1