一种面向大数据的特征提取并行处理方法技术

技术编号：19821997 阅读：30 留言：0更新日期：2018-12-19 14:46

本发明专利技术公开了一种面向大数据的特征提取并行处理方法，改变传统大数据的特征提取并行处理方法，在互联网抓取系统的数据抓取方法上进行改进，首先在GPU上为任务数据和特征数据分配存储空间，然后提供特征数据关键词库内的关键词，在搜索引擎上URL采集，并提供用户自定义关键词的采集，根据所抓取配置信息，极大地提高了操作的便利性，然后确定抓取目标网址，先找到含有所需数据的网址，判断数据的可靠性以及抓取的可行性和难度，分析页面内容及其组织方式，确定抓取规则，最后，通过正则表达式匹配对每个层次的文本，根据定义的标识串，对网页文本进行匹配搜索以提取所需数据，抓取效率高，抓取的准确性也大大提升。

全部详细技术资料下载

【技术实现步骤摘要】
一种面向大数据的特征提取并行处理方法
本专利技术属于大数据处理
，更具体地说，尤其涉及一种面向大数据的特征提取并行处理方法。
技术介绍
随着大数据时代的来临，如何快速处理大数据，并提取出有效信息已经成为IT行业前沿性的研究热点。“大数据”是指一个体量特别大，数据类别多且要求处理速度足够快的数据集，并且这样的数据集无法用传统数据库工具对其内容进行提取和管理。根据对现有专利资料的检索，目前对大数据的处理方法主要有：提高CPU核数量、建立分布式集群系统和优化并行算法等方面。但由于这些方法都仅局限于依赖CPU的运算处理能力，加之CPU核的数量有限、建立分布式集群系统成本较高等因素的制约，对大数据的处理方法和能力仍有待于进一步创新和提高。当前，特征提取技术在图像处理、模式识别和网络入侵检测等方面的运用越来越广泛，尤其在大数据环境下特征提取的效率已经成为制约快速处理数据能力的瓶颈。为此，申请号为CN201310487250.8公开的一种面向大数据的特征提取并行处理方法，该方法基于CUDA架构利用GPU并行计算能力对大数据进行处理。在处理大数据时，通过采用可并行化的矩阵数组处理方法，对数据进行多线程并发执行处理，从而大大加快特征提取的速度。所采用的可并行化的矩阵数组处理方法是将任务数据与特征数据的每位特征字符依次进行并行匹配，形成一个“01”矩阵，然后根据特征数据的长度，对此“01”矩阵进行并行处理，从而得到正确匹配的结果。该方法利用矩阵数组的特点，具有很好的并行性，能够有效、充分地将数据处理并行化，特别适用于大数据的快速特征提取。但是上述方案仍然具有一定的缺陷，...

【技术保护点】
1.一种面向大数据的特征提取并行处理方法，其特征在于：具体包括如下步骤：S1：在GPU上为任务数据和特征数据分配存储空间；S2：提供特征数据关键词库内的关键词，在搜索引擎上URL采集，并提供用户自定义关键词的采集；S3：根据所抓取配置信息，从目标网站的版面索引页开始，逐一抓取所述版面索引页上出现的正文的链接，并深入正文的链接爬取正文分页信息和正文内容，系统利用URL校验的方式将获取到的URL进行去重；S4：URL采集爬虫包含深度优先和广度优先算法，并可配置爬取深度和用户权限，通过调用者服务确定数据抓取的服务接口，并通过提供者服务确定响应服务接口的实现服务，进而通过调用实现服务，以对其他业务单据中的数据进行抓取，使得能够实现以核心业务单据为维度，自动对与其关联的业务单据的数据进行抓取，极大地提高了操作的便利性；S5：确定抓取目标网址，先找到含有所需数据的网址，判断数据的可靠性以及抓取的可行性和难度；S6：分析页面内容及其组织方式，确定抓取规则；S7：正则表达式匹配对每个层次的文本，根据定义的标识串，对网页文本进行匹配搜索以提取所需数据。

【技术特征摘要】
1.一种面向大数据的特征提取并行处理方法，其特征在于：具体包括如下步骤：S1：在GPU上为任务数据和特征数据分配存储空间；S2：提供特征数据关键词库内的关键词，在搜索引擎上URL采集，并提供用户自定义关键词的采集；S3：根据所抓取配置信息，从目标网站的版面索引页开始，逐一抓取所述版面索引页上出现的正文的链接，并深入正文的链接爬取正文分页信息和正文内容，系统利用URL校验的方式将获取到的URL进行去重；S4：URL采集爬虫包含深度优先和广度优先算法，并可配置爬取深度和用户权限，通过调用者服务确定数据抓取的服务接口，并通过提供者服务确定响应服务接口的实现服务，进而通过调用实现服务，以对其他业务单据中的数据进行抓取，使得能够实现以核心业务单据为维度，自动对与其关联的业务单据的数据进行抓取，极大地提高了操作的便利性；S5：确定抓取目标网址，先找到含有所需数据的网址，判断数据的可靠性以及抓取的可行性和难度；S6：分析页面内容及其组织方式，确定抓取规则；S7：正则表达式匹配对每个层次的文本，根据定义的标识串，对网页文本进行匹配搜索以提取所需数据。2.根据权利要求1所述的一种基于互联网数据抓取系统的数据抓取方法，其特征在于：所...

【专利技术属性】
技术研发人员：刘震，梁旭，黄明，焦璇，黄辉，
申请(专利权)人：大连交通大学，
类型：发明
国别省市：辽宁,21

全部详细技术资料下载我是这个专利的主人