一种基于pandas的数据融合方法技术

技术编号:19009194 阅读:16 留言:0更新日期:2018-09-22 09:03
本发明专利技术涉及一种基于pandas的数据融合方法,包括以下步骤:步骤1:对多种常见的数据格式进行数据融合以及向量化处理;步骤2:增加常见数据库到通用数据格式的转换功能,并进行数据融合以及数据的向量化;步骤3:借助于网络爬虫实施网络数据采集并最终以常见数据格式文件的形式输入到本数据融合平台;步骤4:以通用的数据存储模式进行存储,提交给数据分析环节;步骤5:加载向量化数据,并分析;步骤6:根据分析,输出最终的结果。本发明专利技术的有益效果为:此融合方法可作为数据采集的后继性输入,结合不同的数据采集方式进行原始数据的采集,扩展了数据的来源;也可作为数据分析的前导性输入,对数据进行格式化、向量化,加速数据分析的过程。

A data fusion method based on pandas

The invention relates to a pandas-based data fusion method, which comprises the following steps: step 1: data fusion and vectorization for a variety of common data formats; step 2: adding the conversion function from a common database to a common data format, and data fusion and data vectorization; step 3: with the aid of the aid of Network crawler implements network data acquisition and eventually input to the data fusion platform in the form of common data format files; Step 4: Store in a general data storage mode and submit to the data analysis link; Step 5: Load the vector data and analyze; Step 6: output the final results according to the analysis. The beneficial effect of the invention is that the fusion method can be used as the successive input of data acquisition, combining different data acquisition methods to acquire original data, expanding the source of data, and also as the leading input of data analysis, formatting and vectorizing the data, speeding up the process of data analysis.

【技术实现步骤摘要】
一种基于pandas的数据融合方法
本专利技术涉及数据分析领域,具体来说,涉及一种基于pandas的数据融合方法。
技术介绍
随着计算机技术的发展,大数据、云计算等已经成为各互联网公司甚至部分传统实业公司的核心竞争力。而数据分析技术是这些核心技术的能够得以展示其竞争力的主要手段。然而,最终能够转化为竞争效力的则是数据。在此环境下,数据采集以及数据融合技术成为了竞争力的关键所在。目前常见的数据融合技术大都是针对一种定制化的数据格式或者数据库进行数据融合处理,这样就在一定程度上减少了数据输入的来源。
技术实现思路
针对相关技术中的上述技术问题,本专利技术提出一种基于pandas的数据融合方法,能够对多种数据格式或者数据库进行数据融合处理。为实现上述技术目的,本专利技术的技术方案是这样实现的:一种基于pandas的数据融合方法,具体包括以下步骤:步骤1:对多种常见的数据格式进行数据融合以及向量化处理;步骤2:增加常见数据库到通用数据格式的转换功能,并进行数据融合以及数据的向量化;步骤3:借助于网络爬虫实施网络数据采集并最终以常见数据格式文件的形式输入到本数据融合平台;步骤4:将所有数据进行数据的融合以及向量化格式化后,以通用的数据存储模式进行存储,提交给数据分析环节;步骤5:加载向量化数据,并加速数据分析;步骤6:根据分析,输出最终的分析结果。进一步地,不针对于一种数据格式,把常见不同的数据解析工具集成到pandas,所述数据解析工具解析所述常见的数据格式文件,同时对数据进行格式化、向量化加速处理。进一步地,步骤1中所述常见的数据格式包括Excel数据、dat数据、json数据和csv数据。进一步地,步骤4中所述将所有数据进行数据的融合以及向量化格式化的具体是指对所有数据进行统一的格式化,并且把所有的数据融合为同一类向量型数据。进一步地,步骤5中所述加速数据分析的主要方法是通过把最终融合的数据向量化来实现数据分析的加速功能,利用目前的GPU加速技术以及计算机的分布式集群进行数据的并行处理或分割并行处理。本专利技术的有益效果:对不同格式的数据进行统一的格式化,进而把所有的数据融合为同一类向量型数据;一方面,此融合方法可以作为数据采集的后继性输入,结合网络爬虫等不同的数据采集方式进行数据原始数据的采集,扩展了数据的来源;另一方面此方法可以作为数据分析的前导性输入,为数据提供格式化、向量化的数据,加速数据分析的过程。在实际的开发生产运用中,通过对标定、实验数据等多种数据的分析融合,实现了对公司大数据的积累。同时,高速的处理方式能够将之前理论人工数年需要完成的分析工作缩短到几个小时。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是根据本专利技术实施例所述的一种基于pandas的数据融合方法的流程示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本专利技术保护的范围。如图1所示,根据本专利技术实施例所述的一种基于pandas的数据融合方法,不针对于一种数据格式,能够把常见不同的数据解析工具集成到pandas,具体包括以下步骤:步骤1:对多种常见的数据格式进行数据融合以及向量化处理;步骤2:增加常见数据库到通用数据格式的转换功能,并进行数据融合以及数据的向量化;步骤3:借助于网络爬虫实施网络数据采集并最终以常见数据格式文件的形式输入到本数据融合平台;步骤4:将所有数据进行数据的融合以及向量化格式化后,以通用的数据存储模式进行存储,提交给数据分析环节;步骤5:加载向量化数据,并加速数据分析;步骤6:根据分析,输出最终的分析结果。在一个实施例中,所述数据解析工具能够解析当前各类常见的数据格式文件,同时能够对数据进行格式化、向量化加速处理。在一个实施例中,步骤1中所述常见的数据格式包括Excel数据、dat数据、json数据和csv数据。在一个实施例中,步骤4中所述将所有数据进行数据的融合以及向量化格式化的具体是指:对所有数据进行统一的格式化,并且把所有的数据融合为同一类向量型数据。在一个实施例中,步骤5中所述加速数据分析的主要方法是通过把最终融合的数据向量化来实现数据分析的加速功能,可以充分利用目前的GPU加速技术以及计算机的分布式集群进行数据的并行处理或分割并行处理。以上所述仅为本专利技术的较佳实施例而已,并不用以限制本专利技术,凡在本专利技术的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本专利技术的保护范围之内。本文档来自技高网...
一种基于pandas的数据融合方法

【技术保护点】
1.一种基于pandas的数据融合方法,其特征在于,具体包括以下步骤:步骤1:对多种常见的数据格式进行数据融合以及向量化处理;步骤2:增加常见数据库到通用数据格式的转换功能,并进行数据融合以及数据的向量化;步骤3:借助于网络爬虫实施网络数据采集并最终以常见数据格式文件的形式输入到本数据融合平台;步骤4:将所有数据进行数据的融合以及向量化格式化后,以通用的数据存储模式进行存储,提交给数据分析环节;步骤5:加载向量化数据,并加速数据分析;步骤6:根据分析,输出最终的分析结果。

【技术特征摘要】
1.一种基于pandas的数据融合方法,其特征在于,具体包括以下步骤:步骤1:对多种常见的数据格式进行数据融合以及向量化处理;步骤2:增加常见数据库到通用数据格式的转换功能,并进行数据融合以及数据的向量化;步骤3:借助于网络爬虫实施网络数据采集并最终以常见数据格式文件的形式输入到本数据融合平台;步骤4:将所有数据进行数据的融合以及向量化格式化后,以通用的数据存储模式进行存储,提交给数据分析环节;步骤5:加载向量化数据,并加速数据分析;步骤6:根据分析,输出最终的分析结果。2.根据权利要求1所述的一种基于pandas的数据融合方法,其特征在于,不针对于一种数据格式,把常见不同的数据解析工具集成到pandas,所述数据解析工具解析所述常见的数...

【专利技术属性】
技术研发人员:张国磊张君鸿高史贵
申请(专利权)人:北京智行鸿远汽车有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1