The invention relates to a pandas-based data fusion method, which comprises the following steps: step 1: data fusion and vectorization for a variety of common data formats; step 2: adding the conversion function from a common database to a common data format, and data fusion and data vectorization; step 3: with the aid of the aid of Network crawler implements network data acquisition and eventually input to the data fusion platform in the form of common data format files; Step 4: Store in a general data storage mode and submit to the data analysis link; Step 5: Load the vector data and analyze; Step 6: output the final results according to the analysis. The beneficial effect of the invention is that the fusion method can be used as the successive input of data acquisition, combining different data acquisition methods to acquire original data, expanding the source of data, and also as the leading input of data analysis, formatting and vectorizing the data, speeding up the process of data analysis.
【技术实现步骤摘要】
一种基于pandas的数据融合方法
本专利技术涉及数据分析领域,具体来说,涉及一种基于pandas的数据融合方法。
技术介绍
随着计算机技术的发展,大数据、云计算等已经成为各互联网公司甚至部分传统实业公司的核心竞争力。而数据分析技术是这些核心技术的能够得以展示其竞争力的主要手段。然而,最终能够转化为竞争效力的则是数据。在此环境下,数据采集以及数据融合技术成为了竞争力的关键所在。目前常见的数据融合技术大都是针对一种定制化的数据格式或者数据库进行数据融合处理,这样就在一定程度上减少了数据输入的来源。
技术实现思路
针对相关技术中的上述技术问题,本专利技术提出一种基于pandas的数据融合方法,能够对多种数据格式或者数据库进行数据融合处理。为实现上述技术目的,本专利技术的技术方案是这样实现的:一种基于pandas的数据融合方法,具体包括以下步骤:步骤1:对多种常见的数据格式进行数据融合以及向量化处理;步骤2:增加常见数据库到通用数据格式的转换功能,并进行数据融合以及数据的向量化;步骤3:借助于网络爬虫实施网络数据采集并最终以常见数据格式文件的形式输入到本数据融合平台;步骤4:将所有数据进行数据的融合以及向量化格式化后,以通用的数据存储模式进行存储,提交给数据分析环节;步骤5:加载向量化数据,并加速数据分析;步骤6:根据分析,输出最终的分析结果。进一步地,不针对于一种数据格式,把常见不同的数据解析工具集成到pandas,所述数据解析工具解析所述常见的数据格式文件,同时对数据进行格式化、向量化加速处理。进一步地,步骤1中所述常见的数据格式包括Excel数据、dat数据、 ...
【技术保护点】
1.一种基于pandas的数据融合方法,其特征在于,具体包括以下步骤:步骤1:对多种常见的数据格式进行数据融合以及向量化处理;步骤2:增加常见数据库到通用数据格式的转换功能,并进行数据融合以及数据的向量化;步骤3:借助于网络爬虫实施网络数据采集并最终以常见数据格式文件的形式输入到本数据融合平台;步骤4:将所有数据进行数据的融合以及向量化格式化后,以通用的数据存储模式进行存储,提交给数据分析环节;步骤5:加载向量化数据,并加速数据分析;步骤6:根据分析,输出最终的分析结果。
【技术特征摘要】
1.一种基于pandas的数据融合方法,其特征在于,具体包括以下步骤:步骤1:对多种常见的数据格式进行数据融合以及向量化处理;步骤2:增加常见数据库到通用数据格式的转换功能,并进行数据融合以及数据的向量化;步骤3:借助于网络爬虫实施网络数据采集并最终以常见数据格式文件的形式输入到本数据融合平台;步骤4:将所有数据进行数据的融合以及向量化格式化后,以通用的数据存储模式进行存储,提交给数据分析环节;步骤5:加载向量化数据,并加速数据分析;步骤6:根据分析,输出最终的分析结果。2.根据权利要求1所述的一种基于pandas的数据融合方法,其特征在于,不针对于一种数据格式,把常见不同的数据解析工具集成到pandas,所述数据解析工具解析所述常见的数...
【专利技术属性】
技术研发人员:张国磊,张君鸿,高史贵,
申请(专利权)人:北京智行鸿远汽车有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。