【技术实现步骤摘要】
一种基于大数据分析的业务数据的处理方法及系统
[0001]本专利技术涉及大数据处理
,尤其涉及一种基于大数据分析的业务数据的处理方法及系统。
技术介绍
[0002]在互联网快速发展的带动下,社会生活的基本方式正在悄然发生改变。以往的物质交换方式、信息传播方式已经演变为新时代的“非主流”,互联网取而代之成为生活的必需品,信息网络连通社会每一根神经。
[0003]互联网时代的到来,使人类的社会生活更加方便快捷。但是,信息过载的问题也随之而来,如何快速的从大量信息中筛选出所需信息成为亟待解决的问题。1994年1月,分类目录EINetGalaxy(TradewaveGalaxy)上线,同时支持Gopher和Telnet搜索。同年4月,Yahoo目录诞生,开始提供有限的数据库的查询服务。但是伴随网
[0004]络技术的飞速进步,网络信息的过载问题愈加突出,Yahoo的技术手段已经无法有效应对。1998年10月,Google诞生,Google以Pagerank为基础,自动判断网页的重要性,使得搜索结果的相关性得到增 ...
【技术保护点】
【技术特征摘要】
1.一种基于大数据分析的业务数据的处理方法,其特征在于,所述方法包括:步骤1,对需要采集的数据平台的数据相关性进行分级,采用分布式信息获取方式对不同级别的数据平台采用不同程度等级的数据抓取,其中,对于相关度高的数据平台采用深层抓取,而对于相关度低的数据平台采用简单数据抓取;步骤2,对应不同的数据平台设置不同的数据采集格式(例如JSON格式、Unicode格式),将抓取的数据进行数据清洗后,转换为对应的数据格式的数据,其中,所述数据格式包括预先设定的业务关键词及与业务关键词对应的业务关联级别;步骤3,对转换数据格式后的数据进行池化处理,将处理后的数据存储于业务处理中心的数据池;步骤4,所述数据池与数据处理单元连接,为数据应用及分析提供数据基础。2.如权利要求1所述的一种基于大数据分析的业务数据处理方法,其特征在于,所述步骤1进一步包括:通过Selenium函数将抓取业务关键词请求发送到数据平台对应的程序接口,所述程序接口接受请求打开Selenium函数要抓取的数据内容,在第三方服务器完成数据内容的加载,然后通过桥接方式与业务数据处理中心连接,将所述第三方服务器缓存的抓取的数据内容传回业务数据处理中心的数据预处理单元,在对抓取回的数据进行预处理及解析提取。3.如权利要求1所述的一种基于大数据分析的业务数据处理方法,其特征在于,所述步骤1进一步包括:对需要采集的数据平台的数据相关性进行分级进一步需要对数据抓取的难易程度进行分级,若所述数据平台需要进行动态网页数据的抓取,则设置该数据平台为高相关性,若所述数据平台设置有反抓取屏蔽单元,则设置该数据平台为高相关性。4.如权利要求3所述的一种基于大数据分析的业务数据处理方法,其特征在于,若所述数据平台设置有反抓取屏蔽单元,则通过机器学习方式模拟正常访问行为,并设置伪随机数列,基于该伪随机数列设置更换网关和代理服务器的频率。5.如权利要求2所述的一种基于大数据分析的业务数据处理方法,其特征在于,所述第三方服务器为代理服务器。6.如权利要求1所述的一种基于大数据分析的业务数据处理方法,其特征在于,所述步骤2进一步包括:转换为对应的数据格式的数据包括该数据所属数据平台的数据倾向,如所述数据平台为交友平台,则对应的数据格式为用户之间的关联对应的数据格式,如所述数据平台为购物平台,则对应的数据格式为消费记录对应的数据格式。7.如权利要求1所述的一种基于大数据分析的业务数据处理方法,其特征在于,所述步骤2进一步包括:所述的数据清洗包括:去除无用和重复的数据和规范数据格式,所述根据不同的...
【专利技术属性】
技术研发人员:郑光鸿,廖伟波,丁延松,冯雄伟,郭昭提,覃朋星,
申请(专利权)人:广州品推科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。