一种基于内存计算的特征拼接方法及系统技术方案

技术编号：39307384 阅读：9 留言：0更新日期：2023-11-12 15:55

本发明专利技术提供了一种基于内存计算的特征拼接方法及系统，方法包含：获取包含建立深度学习模型及机器学习模型等模型的数据的文件，将文件导入计算机主存内进行处理；从候选模型集合中选择模型，得到需要拼接的深度学习模型或机器学习模型，从选择模型中筛选得到拼接的数值型、类别型及日期型变量；接收变量，采用多层维度特征同时拼接，通过组合不同层数的特征，得到拼接后的特征，拼接后的特征作为输入，构建深度学习模型及机器学习模型等；系统包含：文件获取模块、模型筛选模块及特征拼接模块。本发明专利技术将数据以文件形式导入到计算机主存，通过将数据直接加载到内存中，避免了磁盘I/O的开销，从而大大缩短了数据处理时间。从而大大缩短了数据处理时间。从而大大缩短了数据处理时间。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于内存计算的特征拼接方法及系统

[0001]本专利技术涉及数据处理
，特别涉及一种基于内存计算的特征拼接方法及系统。

技术介绍

[0002]近年来，随着大数据时代的到来，数据量的不断增加对于传统的数据处理方式提出了更高的要求。内存计算作为一种新型的数据处理方式，以其高速的计算能力、低延迟的数据访问速度和高效的并行处理能力被广泛应用于各个领域，成为了大数据时代数据处理的主要方式之一。而在机器学习及深度学习等人工智能领域中，特征拼接技术被广泛应用于多个层次的神经网络中，特征拼接是指将来自不同来源的特征进行融合，以增强分类及聚类等模型的性能；现有的特征拼接技术大多采用中央处理器CPU或图形处理器GPU等计算设备进行计算，但随着数据量的增加，会导致计算速度变慢，影响模型的性能。
[0003]现有技术一，申请号：CN202210474272.X公开了一种点云数据的处理方法、装置、设备及介质，包括：将点云中的各点分别划入至多个体素中，并根据各体素内所划入点的点特征，获取各体素的体素特征；将各体素投影至预设图像中，并根据投影结果，获取各体素在预设图像中的像素特征；将体素特征与像素特征进行特征拼接，形成与体素对应的体素拼接特征。虽然能够在较低内存占用的前提下，提升体素的特征表达能力，并提高点云数据的数据处理效果，但是内存使用过高，需要大量的内存来存储特征向量，这可能导致内存不足的问题，并且可能会影响算法的性能。
[0004]现有技术二，申请号：CN202010816542.1公开了一种基于多尺度近端特征拼...

【技术保护点】

【技术特征摘要】
1.一种基于内存计算的特征拼接方法，其特征在于，包含以下步骤：获取包含建立深度学习模型及机器学习模型的数据的文件，将文件导入计算机主存内进行处理；从候选模型集合中选择模型，得到需要拼接的深度学习模型或机器学习模型，从选择模型中筛选得到拼接的数值型、类别型及日期型变量；接收变量，采用多层维度特征同时拼接，通过组合不同层数的特征，得到拼接后的特征，拼接后的特征作为输入，构建深度学习模型及机器学习模型。2.如权利要求1所述的基于内存计算的特征拼接方法，其特征在于，文件导入计算机主存内的过程，包含以下步骤：计算机主存发出获取文件的传输请求，开始采集包含建立深度学习模型及机器学习模型的数据；获取数据转换文件，数据转换文件对应于导入计算机主存的文件存储类型，数据转换文件用于对数据的格式进行转换；将数据转换文件得到的文件存储至数据库或计算机主存内部存储器，计算向目标存储节点发送文件存储请求，目标存储节点为数据库或计算机主存多个存储节点中的任意一个，文件存储请求包含文件对应的日志段和存储位置信息；存储至数据库时，计算机主存建立与数据库的连接，调取文件。3.如权利要求1所述的基于内存计算的特征拼接方法，其特征在于，数值型、类别型及日期型变量筛选的过程，包含以下步骤：读取多个需要拼接的深度学习模型或机器学习模型，利用定义的相关条件读取深度学习模型或机器学习模型的特征值，对特征值进行变量分类，变量分类包含数值型、类别型及日期；利用主值分析求得变量的特征向量，根据特征值，求得当前深度学习模型或机器学习模型的特征值的平均特征值，利用平均特征值实现特征向量的一次筛选，获得初始的变量集合，计算初始的变量集合的特征熵进行二次筛选；结合特征变量及特征值估计目标规则，依据目标规则及变量分类为基础获取选择模型中所有的变量。4.如权利要求1所述的基于内存计算的特征拼接方法，其特征在于，构建深度学习模型及机器学习模型的过程，包含以下步骤：获取深度学习模型或机器学习模型的特征拼接层，对不同深度学习模型或机器学习模型的变量进行降维或升维，实现变量的维度一致；将不同特征拼接层层级的特征按照特征维度进行垂直拼接，即将特征矩阵按行方向进行连接；特征分为数值型、类别型及日期型不同类型；将拼接后的特征作为深度学习模型或机器学习模型的输入，构建深度学习模型或机器学习模型。5.如权利要求4所述的基于内存计算的特征拼接方法，其特征在于，实现变量的维度一致的过程，包含以下步骤：获取当前深度学习模型或机器学习模型的特征拼接层的维度，并读取不同深度学习模型或机器学习模型的变量；
判断变量的特征值所在的维度，是否与特征拼接层的维度相同，当所在的维度高于特征拼接层的维度时，进行降维；当所在的维度低于特征拼接层的维度时，进行升维；将变量与特征拼接层的变量进行关联，同时采用聚类对关联得到的特征拼接层的变量...

【专利技术属性】
技术研发人员：许靖，柴磊，陆金乔，
申请(专利权)人：深圳市魔数智擎人工智能有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人