一种基于互联网金融大数据处理方法技术

技术编号:21477793 阅读:71 留言:0更新日期:2019-06-29 04:51
本发明专利技术涉及互联网技术领域,尤其为一种基于互联网金融大数据处理方法,包括以下步骤:S1:分三大步骤:大数据的采集、大数据的处理、大数据的存储,整体系统包含有以下几个模块:1、从Internet上抓取网页内容,并抽取出需要的属性内容的Web爬虫模块;2、对爬虫抓取的内容进行处理的数据处理模块,3、为爬虫提供需要抓取数据网站的URL的爬虫URL队列模块,4、包含需要抓取数据网站的URL信息、爬虫从网页中抽取来的数据以及经过数据处理之后的数据的数据模块,本发明专利技术对数据采集链接过滤的方法复杂度较低,能更快的进行数据处理,数据处理过程中的整合步骤使得匹配效率得到了很大的提升,同时准确度也得到了保障。

【技术实现步骤摘要】
一种基于互联网金融大数据处理方法
本专利技术涉及互联网
,尤其涉及一种基于互联网金融大数据处理方法。
技术介绍
在互联网新兴技术普及应用的过程中,越来越多的用户数据产生、散布在互联网的各个角落,产生了大体量(Volume)、多样化(Variety)、高速度(Velocity)和低价值(Value)等大数据概念(bigdata),并渗透到每一个行业和业务职能领域,为下一步商业和金融服务创新浪潮奠定了数据基础。传统的数据挖掘、分析处理方法和工具,在非结构化、高速化的大数据处理要求面前显得过于乏力,需要创新开发适应新型大数据处理需求的数据挖掘和数据处理方法。互联网网页数据是大数据领域的一个重要组成部分,是互联网公司和金融机构获取用户消费、交易、产品评价信息以及其他社交信息等数据的重要途径,为互联网和金融服务创新提供了丰富的数据基础,因此,对互联网网页的大数据处理流程和技术进行探索具有重要意义。互联网网页数据具有分布广、格式多样、非结构化等大数据的典型特点,需要有针对性地对互联网网页数据进行采集、转换、加工和存储,尤其在网页数据的采集和处理方面,存在亟须突破的若干关键技术,因此需要一种本文档来自技高网...

【技术保护点】
1.一种基于互联网金融大数据处理方法,其特征在于,包括以下步骤:S1:分三大步骤:大数据的采集、大数据的处理、大数据的存储,整体系统包含有以下几个模块:1、从Internet上抓取网页内容,并抽取出需要的属性内容的Web爬虫模块;2、对爬虫抓取的内容进行处理的数据处理模块;3、为爬虫提供需要抓取数据网站的URL的爬虫URL队列模块;4、包含需要抓取数据网站的URL信息、爬虫从网页中抽取来的数据以及经过数据处理之后的数据的数据模块;S2:大数据的采集包括以下几个步骤:1、Web爬虫模块将需要抓取数据的金融网站的URL信息写入爬虫URL队列模块;2、从爬虫URL队列模块获取该金融网站的网页内容;3...

【技术特征摘要】
1.一种基于互联网金融大数据处理方法,其特征在于,包括以下步骤:S1:分三大步骤:大数据的采集、大数据的处理、大数据的存储,整体系统包含有以下几个模块:1、从Internet上抓取网页内容,并抽取出需要的属性内容的Web爬虫模块;2、对爬虫抓取的内容进行处理的数据处理模块;3、为爬虫提供需要抓取数据网站的URL的爬虫URL队列模块;4、包含需要抓取数据网站的URL信息、爬虫从网页中抽取来的数据以及经过数据处理之后的数据的数据模块;S2:大数据的采集包括以下几个步骤:1、Web爬虫模块将需要抓取数据的金融网站的URL信息写入爬虫URL队列模块;2、从爬虫URL队列模块获取该金融网站的网页内容;3、从网页内容中抽取出该金融网站正文页内容的链接地址;4、Web爬虫模块从Internet抓取与该金融网站网址对应的网页内容,并抽取出网页特定属性的内容值;5、对URL信息进行过滤,将当前的URL信息和已经抓取过的URL信息进行比较;6、如果该网页地址没有被抓取过,则将该地址写入数据模块,如果该地址已经被抓取过,则放弃对这个地址的抓取操作;7、获取该地址的网页内容,并抽取出所需属性的内容值;8、Web爬虫模块将从网页中抽取出的数据写入数据模块;S3,大数据的处理包括以下几个步骤:1、对抓取来的网页内容进行分词;2、将分词处理的结果写入数据模块;3、对抓取来的网页内容进行排除重复项处理:输入为一个N维向量V,比如文本的特征向量,每个特征具有一定权重,输出是一个...

【专利技术属性】
技术研发人员:刘海峰
申请(专利权)人:华存数据信息技术有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1