一种面向大数据的特征提取并行处理方法技术

技术编号:19821997 阅读:30 留言:0更新日期:2018-12-19 14:46
本发明专利技术公开了一种面向大数据的特征提取并行处理方法,改变传统大数据的特征提取并行处理方法,在互联网抓取系统的数据抓取方法上进行改进,首先在GPU上为任务数据和特征数据分配存储空间,然后提供特征数据关键词库内的关键词,在搜索引擎上URL采集,并提供用户自定义关键词的采集,根据所抓取配置信息,极大地提高了操作的便利性,然后确定抓取目标网址,先找到含有所需数据的网址,判断数据的可靠性以及抓取的可行性和难度,分析页面内容及其组织方式,确定抓取规则,最后,通过正则表达式匹配对每个层次的文本,根据定义的标识串,对网页文本进行匹配搜索以提取所需数据,抓取效率高,抓取的准确性也大大提升。

【技术实现步骤摘要】
一种面向大数据的特征提取并行处理方法
本专利技术属于大数据处理
,更具体地说,尤其涉及一种面向大数据的特征提取并行处理方法。
技术介绍
随着大数据时代的来临,如何快速处理大数据,并提取出有效信息已经成为IT行业前沿性的研究热点。“大数据”是指一个体量特别大,数据类别多且要求处理速度足够快的数据集,并且这样的数据集无法用传统数据库工具对其内容进行提取和管理。根据对现有专利资料的检索,目前对大数据的处理方法主要有:提高CPU核数量、建立分布式集群系统和优化并行算法等方面。但由于这些方法都仅局限于依赖CPU的运算处理能力,加之CPU核的数量有限、建立分布式集群系统成本较高等因素的制约,对大数据的处理方法和能力仍有待于进一步创新和提高。当前,特征提取技术在图像处理、模式识别和网络入侵检测等方面的运用越来越广泛,尤其在大数据环境下特征提取的效率已经成为制约快速处理数据能力的瓶颈。为此,申请号为CN201310487250.8公开的一种面向大数据的特征提取并行处理方法,该方法基于CUDA架构利用GPU并行计算能力对大数据进行处理。在处理大数据时,通过采用可并行化的矩阵数组处理方法,对数据进行多线程并发执行处理,从而大大加快特征提取的速度。所采用的可并行化的矩阵数组处理方法是将任务数据与特征数据的每位特征字符依次进行并行匹配,形成一个“01”矩阵,然后根据特征数据的长度,对此“01”矩阵进行并行处理,从而得到正确匹配的结果。该方法利用矩阵数组的特点,具有很好的并行性,能够有效、充分地将数据处理并行化,特别适用于大数据的快速特征提取。但是上述方案仍然具有一定的缺陷,无法对重复的数据进行去重,使得数据量过大,给后期提取数据带来很大的困难,具有一定的局限性。
技术实现思路
本专利技术的目的是为了解决现有技术中存在的缺点,而提出的一种面向大数据的特征提取并行处理方法。为实现上述目的,本专利技术提供如下技术方案:本专利技术提供的一种面向大数据的特征提取并行处理方法,具体包括如下步骤:S1:在GPU上为任务数据和特征数据分配存储空间;S2:提供特征数据关键词库内的关键词,在搜索引擎上URL采集,并提供用户自定义关键词的采集;S3:根据所抓取配置信息,从目标网站的版面索引页开始,逐一抓取所述版面索引页上出现的正文的链接,并深入正文的链接爬取正文分页信息和正文内容,系统利用URL校验的方式将获取到的URL进行去重;S4:URL采集爬虫包含深度优先和广度优先算法,并可配置爬取深度和用户权限,通过调用者服务确定数据抓取的服务接口,并通过提供者服务确定响应服务接口的实现服务,进而通过调用实现服务,以对其他业务单据中的数据进行抓取,使得能够实现以核心业务单据为维度,自动对与其关联的业务单据的数据进行抓取,极大地提高了操作的便利性;S5:确定抓取目标网址,先找到含有所需数据的网址,判断数据的可靠性以及抓取的可行性和难度;S6:分析页面内容及其组织方式,确定抓取规则;S7:正则表达式匹配对每个层次的文本,根据定义的标识串,对网页文本进行匹配搜索以提取所需数据。作为本技术方案的进一步优化,本专利技术一种面向大数据的特征提取并行处理方法,所述步骤S4中,注意避免应用了防采集措施的网站,如:限定IP地址在一定时间内对页面的访问次数、用javascript加密内容页面、只允许用户登陆后才可以浏览和只允许通过本站页面连接查看的网站。作为本技术方案的进一步优化,本专利技术一种面向大数据的特征提取并行处理方法,所述步骤S5中,由于网页是半结构化文档,除了数据内容之外,还包括大量格式和其它多媒体信息,抓取前务必了解网页数据的组织特点,确定目标数据项的识别规则,通过查看源文件进行分析。作为本技术方案的进一步优化,本专利技术一种面向大数据的特征提取并行处理方法,所述步骤S6中匹配搜索过程中,为了尽可能的增强灵活性,采用了正则表达式。作为本技术方案的进一步优化,本专利技术一种面向大数据的特征提取并行处理方法,所述步骤S3中,提供对URL标签解析功能,包含标题、日期、作者、正文特定标签下的内容提取并分类,提供对搜索出结果的特定标签内关键信息进行抽取,有新闻资讯类网页的正文信息抽取功能。作为本技术方案的进一步优化,本专利技术一种面向大数据的特征提取并行处理方法,所述步骤S4中当抓取过程出现异常时,记录日志信息,此时并行化分布式互联网数据抓取系统进行重试抓取,直至抓取成功。本专利技术的技术效果和优点:本专利技术一种面向大数据的特征提取并行处理方法,改变传统大数据的特征提取并行处理方法,在互联网抓取系统的数据抓取方法上进行改进,首先在GPU上为任务数据和特征数据分配存储空间,然后提供特征数据关键词库内的关键词,在搜索引擎上URL采集,并提供用户自定义关键词的采集,根据所抓取配置信息,从目标网站的版面索引页开始,逐一抓取所述版面索引页上出现的正文的链接,并深入正文的链接爬取正文分页信息和正文内容,系统利用URL校验的方式将获取到的URL进行去重,提高了工作效率,URL采集爬虫包含深度优先和广度优先算法,并可配置爬取深度和用户权限,通过调用者服务确定数据抓取的服务接口,并通过提供者服务确定响应服务接口的实现服务,进而通过调用实现服务,以对其他业务单据中的数据进行抓取,使得能够实现以核心业务单据为维度,自动对与其关联的业务单据的数据进行抓取,极大地提高了操作的便利性,然后确定抓取目标网址,先找到含有所需数据的网址,判断数据的可靠性以及抓取的可行性和难度,分析页面内容及其组织方式,确定抓取规则,最后,通过正则表达式匹配对每个层次的文本,根据定义的标识串,对网页文本进行匹配搜索以提取所需数据,抓取效率高,抓取的准确性也大大提升。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合具体实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术提供的一种面向大数据的特征提取并行处理方法,具体包括如下步骤:S1:在GPU上为任务数据和特征数据分配存储空间;S2:提供特征数据关键词库内的关键词,在搜索引擎上URL采集,并提供用户自定义关键词的采集;S3:根据所抓取配置信息,从目标网站的版面索引页开始,逐一抓取所述版面索引页上出现的正文的链接,并深入正文的链接爬取正文分页信息和正文内容,系统利用URL校验的方式将获取到的URL进行去重;S4:URL采集爬虫包含深度优先和广度优先算法,并可配置爬取深度和用户权限,通过调用者服务确定数据抓取的服务接口,并通过提供者服务确定响应服务接口的实现服务,进而通过调用实现服务,以对其他业务单据中的数据进行抓取,使得能够实现以核心业务单据为维度,自动对与其关联的业务单据的数据进行抓取,极大地提高了操作的便利性;S5:确定抓取目标网址,先找到含有所需数据的网址,判断数据的可靠性以及抓取的可行性和难度;S6:分析页面内容及其组织方式,确定抓取规则;S7:正则表达式匹配对每个层次的文本,根据定义的标识串,对网页文本进行匹配搜索以提取所需数据。作为本技术方案的进一步优化,本专利技术一种面向大数据的特征提取并行处理方本文档来自技高网
...

【技术保护点】
1.一种面向大数据的特征提取并行处理方法,其特征在于:具体包括如下步骤:S1:在GPU上为任务数据和特征数据分配存储空间;S2:提供特征数据关键词库内的关键词,在搜索引擎上URL采集,并提供用户自定义关键词的采集;S3:根据所抓取配置信息,从目标网站的版面索引页开始,逐一抓取所述版面索引页上出现的正文的链接,并深入正文的链接爬取正文分页信息和正文内容,系统利用URL校验的方式将获取到的URL进行去重;S4:URL采集爬虫包含深度优先和广度优先算法,并可配置爬取深度和用户权限,通过调用者服务确定数据抓取的服务接口,并通过提供者服务确定响应服务接口的实现服务,进而通过调用实现服务,以对其他业务单据中的数据进行抓取,使得能够实现以核心业务单据为维度,自动对与其关联的业务单据的数据进行抓取,极大地提高了操作的便利性;S5:确定抓取目标网址,先找到含有所需数据的网址,判断数据的可靠性以及抓取的可行性和难度;S6:分析页面内容及其组织方式,确定抓取规则;S7:正则表达式匹配对每个层次的文本,根据定义的标识串,对网页文本进行匹配搜索以提取所需数据。

【技术特征摘要】
1.一种面向大数据的特征提取并行处理方法,其特征在于:具体包括如下步骤:S1:在GPU上为任务数据和特征数据分配存储空间;S2:提供特征数据关键词库内的关键词,在搜索引擎上URL采集,并提供用户自定义关键词的采集;S3:根据所抓取配置信息,从目标网站的版面索引页开始,逐一抓取所述版面索引页上出现的正文的链接,并深入正文的链接爬取正文分页信息和正文内容,系统利用URL校验的方式将获取到的URL进行去重;S4:URL采集爬虫包含深度优先和广度优先算法,并可配置爬取深度和用户权限,通过调用者服务确定数据抓取的服务接口,并通过提供者服务确定响应服务接口的实现服务,进而通过调用实现服务,以对其他业务单据中的数据进行抓取,使得能够实现以核心业务单据为维度,自动对与其关联的业务单据的数据进行抓取,极大地提高了操作的便利性;S5:确定抓取目标网址,先找到含有所需数据的网址,判断数据的可靠性以及抓取的可行性和难度;S6:分析页面内容及其组织方式,确定抓取规则;S7:正则表达式匹配对每个层次的文本,根据定义的标识串,对网页文本进行匹配搜索以提取所需数据。2.根据权利要求1所述的一种基于互联网数据抓取系统的数据抓取方法,其特征在于:所...

【专利技术属性】
技术研发人员:刘震梁旭黄明焦璇黄辉
申请(专利权)人:大连交通大学
类型:发明
国别省市:辽宁,21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1