一种基于内存计算的特征拼接方法及系统技术方案

技术编号:39307384 阅读:9 留言:0更新日期:2023-11-12 15:55
本发明专利技术提供了一种基于内存计算的特征拼接方法及系统,方法包含:获取包含建立深度学习模型及机器学习模型等模型的数据的文件,将文件导入计算机主存内进行处理;从候选模型集合中选择模型,得到需要拼接的深度学习模型或机器学习模型,从选择模型中筛选得到拼接的数值型、类别型及日期型变量;接收变量,采用多层维度特征同时拼接,通过组合不同层数的特征,得到拼接后的特征,拼接后的特征作为输入,构建深度学习模型及机器学习模型等;系统包含:文件获取模块、模型筛选模块及特征拼接模块。本发明专利技术将数据以文件形式导入到计算机主存,通过将数据直接加载到内存中,避免了磁盘I/O的开销,从而大大缩短了数据处理时间。从而大大缩短了数据处理时间。从而大大缩短了数据处理时间。

【技术实现步骤摘要】
一种基于内存计算的特征拼接方法及系统


[0001]本专利技术涉及数据处理
,特别涉及一种基于内存计算的特征拼接方法及系统。

技术介绍

[0002]近年来,随着大数据时代的到来,数据量的不断增加对于传统的数据处理方式提出了更高的要求。内存计算作为一种新型的数据处理方式,以其高速的计算能力、低延迟的数据访问速度和高效的并行处理能力被广泛应用于各个领域,成为了大数据时代数据处理的主要方式之一。而在机器学习及深度学习等人工智能领域中,特征拼接技术被广泛应用于多个层次的神经网络中,特征拼接是指将来自不同来源的特征进行融合,以增强分类及聚类等模型的性能;现有的特征拼接技术大多采用中央处理器CPU或图形处理器GPU等计算设备进行计算,但随着数据量的增加,会导致计算速度变慢,影响模型的性能。
[0003]现有技术一,申请号:CN202210474272.X公开了一种点云数据的处理方法、装置、设备及介质,包括:将点云中的各点分别划入至多个体素中,并根据各体素内所划入点的点特征,获取各体素的体素特征;将各体素投影至预设图像中,并根据投影结果,获取各体素在预设图像中的像素特征;将体素特征与像素特征进行特征拼接,形成与体素对应的体素拼接特征。虽然能够在较低内存占用的前提下,提升体素的特征表达能力,并提高点云数据的数据处理效果,但是内存使用过高,需要大量的内存来存储特征向量,这可能导致内存不足的问题,并且可能会影响算法的性能。
[0004]现有技术二,申请号:CN202010816542.1公开了一种基于多尺度近端特征拼接的高光谱图像分类模型的装置,模型包括多尺度近端特征拼接模块和分类模块,多尺度近端特征拼接模块包括多个串接的多尺度近端特征拼接单元;多尺度近端特征拼接单元包括第一特征提取支路、第二特征提取支路、输入特征传递支路、特征拼接层和平均池化层;第一特征提取支路与第二特征提取支路并联后与特征拼接层及平均池化层依次串接;第一特征提取支路包括串接的第一空洞卷积层和第二空洞卷积层;第二特征提取支路包括第三空洞卷积层;输入特征传递支路用于传递原始空谱特征。虽然模型引入相邻近端特征上下文信息,利用各特征图的空间多样性与特征相关性,提升分类精度;但是如果将不同模型中的特量拼接起来,可能会出现特征维度不一、特征错误的情况影响到模型的准确性,需要进行维度的调整,但是调整过程中也需要消耗更多的计算资源。
[0005]现有技术三,申请号:CN202010816542.1公开了一种基于多尺度近端特征拼接的高光谱图像分类模型的装置,其中,模型包括多尺度近端特征拼接模块和分类模块,多尺度近端特征拼接模块包括多个串接的多尺度近端特征拼接单元;多尺度近端特征拼接单元包括第一特征提取支路、第二特征提取支路、输入特征传递支路、特征拼接层和平均池化层;第一特征提取支路与第二特征提取支路并联后与特征拼接层及平均池化层依次串接;第一特征提取支路包括串接的第一空洞卷积层和第二空洞卷积层;第二特征提取支路包括第三空洞卷积层;输入特征传递支路用于传递原始空谱特征。虽然模型引入相邻近端特征上下
文信息,利用各特征图的空间多样性与特征相关性,提升分类精度,但是特征拼接采取俩俩拼接不能做到多个模型内特征进行一次性的拼接且拼接的是模型中全量的特征,产生了冗余的操作以无效的特征。
[0006]目前现有技术一、现有技术二及现有技术三存在内存使用过高,特征维度不同及拼接方式有限的问题,因而,本专利技术提供一种基于内存计算的特征拼接方法及系统,利用内存计算的高速度和低延迟,将不同来源的特征读入内存,进行快速的拼接和处理,提高了特征融合的速度和效率;同时,内存计算还可以实现大规模数据的并行处理,进一步提高了特征拼接的速度和性能。

技术实现思路

[0007]为了解决上述技术问题,本专利技术提供了一基于内存计算的特征拼接方法,包含以下步骤:获取包含建立深度学习模型及机器学习模型的数据的文件,将文件导入计算机主存内进行处理;从候选模型集合中选择模型,得到需要拼接的深度学习模型或机器学习模型,从选择模型中筛选得到拼接的数值型、类别型及日期型变量;接收变量,采用多层维度特征同时拼接,通过组合不同层数的特征,得到拼接后的特征,拼接后的特征作为输入,构建深度学习模型及机器学习模型。
[0008]可选的,文件导入计算机主存内的过程,包含以下步骤:计算机主存发出获取文件的传输请求,开始采集包含建立深度学习模型及机器学习模型的数据;获取数据转换文件,数据转换文件对应于导入计算机主存的文件存储类型,数据转换文件用于对数据的格式进行转换;将数据转换文件得到的文件存储至数据库或计算机主存内部存储器,计算向目标存储节点发送文件存储请求,目标存储节点为数据库或计算机主存多个存储节点中的任意一个,文件存储请求包含文件对应的日志段和存储位置信息;存储至数据库时,计算机主存建立与数据库的连接,调取文件。
[0009]可选的,数值型、类别型及日期型变量筛选的过程,包含以下步骤:读取多个需要拼接的深度学习模型或机器学习模型,利用定义的相关条件读取深度学习模型或机器学习模型的特征值,对特征值进行变量分类,变量分类包含数值型、类别型及日期;利用主值分析求得变量的特征向量,根据特征值,求得当前深度学习模型或机器学习模型的特征值的平均特征值,利用平均特征值实现特征向量的一次筛选,获得初始的变量集合,计算初始的变量集合的特征熵进行二次筛选;结合特征变量及特征值估计目标规则,依据目标规则及变量分类为基础获取选择模型中所有的变量。
[0010]可选的,构建深度学习模型及机器学习模型的过程,包含以下步骤:获取深度学习模型或机器学习模型的特征拼接层,对不同深度学习模型或机器学习模型的变量进行降维或升维,实现变量的维度一致;
将不同特征拼接层层级的特征按照特征维度进行垂直拼接,即将特征矩阵按行方向进行连接;特征分为数值型、类别型及日期型不同类型;将拼接后的特征作为深度学习模型或机器学习模型的输入,构建深度学习模型或机器学习模型。
[0011]可选的,实现变量的维度一致的过程,包含以下步骤:获取当前深度学习模型或机器学习模型的特征拼接层的维度,并读取不同深度学习模型或机器学习模型的变量;判断变量的特征值所在的维度,是否与特征拼接层的维度相同,当所在的维度高于特征拼接层的维度时,进行降维;当所在的维度低于特征拼接层的维度时,进行升维;将变量与特征拼接层的变量进行关联,同时采用聚类对关联得到的特征拼接层的变量进行压缩,实现变量的维度一致。
[0012]可选的,将特征矩阵按行方向进行连接的过程,包含以下步骤:获取不同特征拼接层层级的特征维度,以特征类型为特征矩阵的行方向特征向量,以特征拼接层层级为特征矩阵的横方向特征向量,建立特征矩阵;按照特征矩阵的行方向进行特征的拼接,即将特征的相同维度上的值按顺序拼接在一起,形成新的特征;对新的特征拼接层的特征进行归一化或编码处理,生成新的特征拼接层的特征。
[0013]可选的,将特征的相同维度上的值按顺序拼接在一起的过程,包含以下步骤:按照特征矩阵的行方本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于内存计算的特征拼接方法,其特征在于,包含以下步骤:获取包含建立深度学习模型及机器学习模型的数据的文件,将文件导入计算机主存内进行处理;从候选模型集合中选择模型,得到需要拼接的深度学习模型或机器学习模型,从选择模型中筛选得到拼接的数值型、类别型及日期型变量;接收变量,采用多层维度特征同时拼接,通过组合不同层数的特征,得到拼接后的特征,拼接后的特征作为输入,构建深度学习模型及机器学习模型。2.如权利要求1所述的基于内存计算的特征拼接方法,其特征在于,文件导入计算机主存内的过程,包含以下步骤:计算机主存发出获取文件的传输请求,开始采集包含建立深度学习模型及机器学习模型的数据;获取数据转换文件,数据转换文件对应于导入计算机主存的文件存储类型,数据转换文件用于对数据的格式进行转换;将数据转换文件得到的文件存储至数据库或计算机主存内部存储器,计算向目标存储节点发送文件存储请求,目标存储节点为数据库或计算机主存多个存储节点中的任意一个,文件存储请求包含文件对应的日志段和存储位置信息;存储至数据库时,计算机主存建立与数据库的连接,调取文件。3.如权利要求1所述的基于内存计算的特征拼接方法,其特征在于,数值型、类别型及日期型变量筛选的过程,包含以下步骤:读取多个需要拼接的深度学习模型或机器学习模型,利用定义的相关条件读取深度学习模型或机器学习模型的特征值,对特征值进行变量分类,变量分类包含数值型、类别型及日期;利用主值分析求得变量的特征向量,根据特征值,求得当前深度学习模型或机器学习模型的特征值的平均特征值,利用平均特征值实现特征向量的一次筛选,获得初始的变量集合,计算初始的变量集合的特征熵进行二次筛选;结合特征变量及特征值估计目标规则,依据目标规则及变量分类为基础获取选择模型中所有的变量。4.如权利要求1所述的基于内存计算的特征拼接方法,其特征在于,构建深度学习模型及机器学习模型的过程,包含以下步骤:获取深度学习模型或机器学习模型的特征拼接层,对不同深度学习模型或机器学习模型的变量进行降维或升维,实现变量的维度一致;将不同特征拼接层层级的特征按照特征维度进行垂直拼接,即将特征矩阵按行方向进行连接;特征分为数值型、类别型及日期型不同类型;将拼接后的特征作为深度学习模型或机器学习模型的输入,构建深度学习模型或机器学习模型。5.如权利要求4所述的基于内存计算的特征拼接方法,其特征在于,实现变量的维度一致的过程,包含以下步骤:获取当前深度学习模型或机器学习模型的特征拼接层的维度,并读取不同深度学习模型或机器学习模型的变量;
判断变量的特征值所在的维度,是否与特征拼接层的维度相同,当所在的维度高于特征拼接层的维度时,进行降维;当所在的维度低于特征拼接层的维度时,进行升维;将变量与特征拼接层的变量进行关联,同时采用聚类对关联得到的特征拼接层的变量...

【专利技术属性】
技术研发人员:许靖柴磊陆金乔
申请(专利权)人:深圳市魔数智擎人工智能有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1