一种基于多源异构海量数据的深度分析方法及装置制造方法及图纸

技术编号:20176690 阅读:80 留言:0更新日期:2019-01-23 00:22
本发明专利技术公开了一种基于多源异构海量数据的深度分析方法及装置,包括以下步骤:获取外部服务器中每个数据文件的存储位置和属性信息,选定对应的监测模式;并对数据文件进行追踪,当追踪到存在新增数据或者数据内容发生改变时,重新获取所述数据文件;当判断出所述数据文件为所需数据文件时,创建线程进行分析处理,根据支持的线程数量以及所述数据文件的优先级确定线程号;当轮到所述线程号对应的线程启动时,根据所述数据文件的属性信息抽取对应的数据,并对该数据进行分析处理。本发明专利技术能够降低数据文件获取的难度,提高对数据文件分析处理时的效率以及增加系统的稳定性。

A Depth Analysis Method and Device Based on Multi-source Heterogeneous Massive Data

The invention discloses a depth analysis method and device based on multi-source heterogeneous mass data, which includes the following steps: acquiring the storage location and attribute information of each data file in the external server, selecting the corresponding monitoring mode, tracing the data file, and retrieving the data file when tracing to the presence of new data or changes in data content; When the data file is judged to be the required data file, the thread is created for analysis and processing, and the thread number is determined according to the number of threads supported and the priority of the data file. When the thread whose thread number corresponds to is started, the corresponding data is extracted according to the attribute information of the data file, and the data is analyzed and processed. The invention can reduce the difficulty of data file acquisition, improve the efficiency of data file analysis and processing, and increase the stability of the system.

【技术实现步骤摘要】
一种基于多源异构海量数据的深度分析方法及装置
本专利技术属于大数据挖掘分析
,尤其是涉及一种基于多源异构海量数据的深度分析方法及装置。
技术介绍
随着信息科技的发展,大数据技术已经成为了社会的重要研究方向和应用热点。众所周知,大数据是从海量的多维度的寻常数据中寻找有意义的关联、挖掘事物变化规律,准确预测事物发展趋势的技术。显然,海量是大数据的一个重要特征,而另一个重要特征则是数据的异构性。根据结构的不同可以将数据分为结构化数据、半结构化数据和非结构化数据。异构数据是指采用多种数据格式,有着不同的数据模型和语义环境的数据。目前在很多应用场合,例如高校、科研院所和实验室等,由于各业务系统建立时间和提供商不同,导致了各种数据的存在形式、来源和记录格式也各不相同,进而使得对数据进行分析的难度增大。另外,目前很多业务系统还是以“文件形式”记录数据,由于各类数据的多源性,给数据文件的获取带来不便,在对这些数据进行加工处理时,效率较低并且大量占用系统资源、影响系统的稳定性等。
技术实现思路
有鉴于此,本专利技术实施例的目的在于提供一种基于多源异构海量数据的深度分析方法及装置,旨在降低数据文件获取本文档来自技高网...

【技术保护点】
1.一种基于多源异构海量数据的深度分析方法,应用于基于多源异构海量数据的深度分析装置,所述基于多源异构海量数据的深度分析装置与外部服务器通信连接,其特征在于,所述基于多源异构海量数据的深度分析方法包括以下步骤:获取所述外部服务器中每个数据文件的存储位置和属性信息,根据所述存储位置和属性信息选定对应的监测模式,其中,所述监测模式包括实时监测和定期扫描;采用选定的监测模式对所述数据文件进行追踪,当追踪到所述数据文件中存在新增数据或者数据内容发生改变时,重新获取所述数据文件;根据预设条件判断所述数据文件是否为所需数据文件;当判断出所述数据文件为所需数据文件时,创建线程进行分析处理,根据支持的线程数量...

【技术特征摘要】
1.一种基于多源异构海量数据的深度分析方法,应用于基于多源异构海量数据的深度分析装置,所述基于多源异构海量数据的深度分析装置与外部服务器通信连接,其特征在于,所述基于多源异构海量数据的深度分析方法包括以下步骤:获取所述外部服务器中每个数据文件的存储位置和属性信息,根据所述存储位置和属性信息选定对应的监测模式,其中,所述监测模式包括实时监测和定期扫描;采用选定的监测模式对所述数据文件进行追踪,当追踪到所述数据文件中存在新增数据或者数据内容发生改变时,重新获取所述数据文件;根据预设条件判断所述数据文件是否为所需数据文件;当判断出所述数据文件为所需数据文件时,创建线程进行分析处理,根据支持的线程数量以及所述数据文件的优先级确定线程号;当轮到所述线程号对应的线程启动时,根据所述数据文件的属性信息抽取对应的数据,并对该数据进行分析处理。2.根据权利要求1所述的基于多源异构海量数据的深度分析方法,其特征在于,所述根据所述数据文件的属性信息抽取对应的数据,并对该数据进行分析处理的步骤之后,所述基于多源异构海量数据的深度分析方法还包括:在抽取后的数据中提取文本信息,并创建元数据;从元数据库中抽取索引进行关联,将关联结果存储在索引数据库中,以供搜索。3.根据权利要求1所述的基于多源异构海量数据的深度分析方法,其特征在于,所述根据支持的线程数量以及所述数据文件的优先级确定线程号的步骤包括:当所述数据文件的优先级相同时,随机分配所述数据文件的线程号。4.根据权利要求1所述的基于多源异构海量数据的深度分析方法,其特征在于,所述重新获取所述数据文件的步骤包括:按照预设标准格式对获取到的数据文件中的数据进行清洗,过滤掉冗余信息;对清洗后的数据进行分类,得到分类...

【专利技术属性】
技术研发人员:张军苏玉召朱光军崔红涛芦刚
申请(专利权)人:河南智慧云大数据有限公司
类型:发明
国别省市:河南,41

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1