一种面向大数据的针对可变长度特征提取的自适应并行处理方法技术

技术编号：9618123 阅读：122 留言：0更新日期：2014-01-30 05:51

本发明专利技术公开了一种面向大数据的针对可变长度特征提取的自适应并行处理方法，该方法是针对可变长度的特征数据，采用基于CUDA的架构，利用GPU并行计算能力对大数据进行处理。在处理大数据时，根据自身硬件特性和特征数据的长度，自适应的采用可并行化的矩阵数组处理方式，对数据进行多线程并发执行处理，从而加快特征提取的速度。本发明专利技术所采用的自适应调整是根据硬件自身的处理能力和特征数据的长度，分批对数据进行处理，每次进行一定长度的特征提取，并记录匹配结果；等待整个特征提取完成后，根据数据采样所允许的容错率，再处理所有匹配结果，最后得出符合要求的特征提取结果。该方法利用矩阵数组具有的良好可并行性，针对可变长度的特征提取，能够有效、充分地将数据处理并行化，特别适用于具有一定容错性的大数据快速特征提取。

An adaptive parallel processing method for large data oriented variable length feature extraction

The invention discloses a variable length feature extraction based on adaptive parallel processing method for large data sets, the method is in accordance with the characteristics of variable length data, using CUDA architecture based on GPU, using the parallel computing capabilities for large data processing. In data processing, according to their own hardware characteristics and features of the length of the data, using the adaptive parallel matrix array processing manner, the data processing is executed multiple threads, thus speeding up the speed of feature extraction. Adaptive adjustment of the present invention is adopted according to the processing capacity of the hardware itself and the characteristics of the length of the data, batch data processing, feature extraction of each length, and record matching results; wait for the entire feature extraction is completed, according to the fault data sampling permitted rate, then all the matching results, finally obtained to meet the requirements of the feature extraction results. The good method using matrix array with the parallel, according to the characteristics of variable length extraction, can effectively and fully parallel data processing, especially suitable for fast feature large data fault-tolerant extraction.

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于大数据处理
，涉及一种特征提取的方法，更具体是涉及。技术背景随着大数据时代的来临，如何快速处理大数据，并提取出有效信息已经成为IT行业前沿性的研究热点。当前，特征提取技术在图像处理、模式识别和网络入侵检测等方面的运用越来越广泛，尤其在大数据环境下，对可变长度特征提取的灵活性及效率已经成为制约快速处理数据能力的瓶颈。根据对现有专利资料的检索，目前对大数据进行特征提取的方法主要有两个方面:一方面是提高CPU核数量或建立分布式集群系统等；另一方面是利用GPU来处理固定长度的特征数据且没有容错性。但由于CPU核的数量有限、建立分布式集群系统成本较高、而利用GPU的处理还受到硬件能力的制约，局限于只能处理固定长度的特征数据，所以对大数据环境下特征提取的处理方法和能力仍有待于进一步创新和提高。
技术实现思路
本专利技术的目的是针对大数据环境下，计算机对数据的特征提取主要依靠CPU来串行完成、利用GPU对数据的特征提取局限于只能处理固定长度的两方面现状，提出，使得计算机对特征提取的处理能力更强、灵活性更好且具有一定的容错性。为了实现上述目的，本专利技术解决上述问题的技术方案是，该方法根据自身硬件特性和特征数据的长度，自适应的采用可并行化的矩阵数组处理方式，分批对特征数据进行处理，每次进行一定长度的特征提取，并行构建一个具有良好并行性的矩阵数组，对数据进行多线程并发执行处理，并记录匹配结果；等待整个特征提取完成后，根据数据采样所允许的容错率，再处理所有匹配结果，最后得出符合要求的特征提取结果。根据上述的技术方案，本专利技术采用并行处理的...

【技术保护点】
一种面向大数据的针对可变长度特征提取的自适应并行处理方法，其特征在于：该处理方法包含以下步骤：步骤1：在处理大数据时，根据硬件自身处理能力和特征数据的长度，主机将特征提取任务分为N（N≥1）个子任务执行，每个子任务对来自大数据中的任务数据并行执行一定长度的特征提取；步骤2：在GPU上为任务数据分配存储空间，并将其传递至GPU中；步骤3：将子任务所需的部分特征数据传递至GPU中，根据所要处理的任务数据和该部分特征数据，并行构建一个具有良好并行性的矩阵数组；步骤4：通过采用并行处理矩阵数组的方式，对矩阵数组进行多线程并发执行特征匹配，并将此结果返回给主机，释放GPU中无用的内存空间；步骤5：重复步骤3、4，直到完成该任务数据对第N个子任务中部分特征数据的匹配；步骤6：主机将根据特征数据采样所允许的一定的容错率，处理上述N部分返回结果，得出符合要求的特征提取结果。

【技术特征摘要】
1.一种面向大数据的针对可变长度特征提取的自适应并行处理方法，其特征在于:该处理方法包含以下步骤: 步骤1:在处理大数据时，根据硬件自身处理能力和特征数据的长度，主机将特征提取任务分为N (N ^ I)个子任务执行，每个子任务对来自大数据中的任务数据并行执行一定长度的特征提取；步骤2:在GPU上为任务数据分配存储空间，并将其传递至GPU中；步骤3:将子任务所需的部分特征数据传递至GPU中，根据所要处理的任务数据和该部分特征数据，并行构建一个具有良好并行性的矩阵数组；步骤4:通过采用并行处理矩阵数组的方式，对矩阵数组进行多线程并发执行特征匹配，并将此结果返回给主机，释放GPU中无用的内存空间；步骤5:重复步骤3、4，直到完成该任务数据对第N个子任务中部分特征数据的匹配；步骤6:主机将根据特征数据采样所允许的一定的容错率，处理上述N部分返回结果，得出符合要求的特征提取结果。2.根据权利要求1所述的一种面向大数据的针对可变长度特征提取的自适应并行处理方法，其特征在于:该处理方法是基于CPU+GPU异步体系结构，即由CPU完成串行工作，控制主程序的流程；GPU使用CUDA编程架构，实现数据特征提取的并行计算。3.根据权利要求1所述的一种面向大数据的针对可变长度特征提取的自适应并行处理方法，其特征在于:步骤I所述的GPU硬件自身处理能力，是指每个子任务进行一定长度的特征提取时，此部分特征数据和任务数据形成的矩阵数组大小必须在GPU的硬件处理能力范围内。4.根据权利要求1所述的一种面向大数据的针对可变长度特征提取的自适应并行处理方法，其特征在于:步骤2所述的在GPU上为任务数据分配存储空间，是指在GPU的全局存储器中为任务数据分配空间，并将任务数据从主机CPU存储器中传递至设备GPU的全局存储器中；步骤3所述的将本次子任务所需的部分特征数据传递至GPU中是指将此特征数据传递至GPU的常量存储器中，使用GPU的常量内存参与并行运算，可以减少程序运行时不断读取特征数据的次数，进一步提高计算速度。5.根据权利要求1所述的一种面向大数据的针对可变长度特征提取的自适应并行处理方法，其特征在于:步骤3所述的并行构建一个具有良好并行性的矩阵数组，是把任务数据和子任务特征数据的每个字符依次进行并行匹配，形成一个有效的“01”矩阵数组，该有效“01”矩阵数组，是根据任务数据长度STRLEN和第i个子任务中特征数据的长度KEY[i](l^i^ N)，将任务数据和...

【专利技术属性】
技术研发人员：刘镇，焦弘杰，吕超，邢红兵，
申请(专利权)人：镇江中安通信科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人