一种大数据分析系统技术方案

技术编号:15983605 阅读:38 留言:0更新日期:2017-08-12 05:54
本发明专利技术提供了一种大数据分析系统,包括收集分析系统和数据存放系统;所述收集分析系统设置有搜索引擎、第一标记模块、过滤系统、临时数据存放模块、数据输入模块、比对模块、过滤模块、数据采集模块、编译模块、数据库、网络服务器、计算模块、对比模块、storm拓扑结构架构、操作系统、调取模块、广告数据库和客户端;所述搜索引擎为收集分析系统的开始端口;所述第一标记模块设置在搜索引擎数据的输出线路上;本发明专利技术公布的搜索引擎便于使用者输入关键词,进行相关信息搜索;数据采集模块将搜索的关键词收集起来,便于后续处理;编译模块将收集的数据转换为计算机语言,便于计算机系统进行处理;每个数据库用于对应存放标记有不同符号的数据。

【技术实现步骤摘要】
一种大数据分析系统
本专利技术涉及一种数据分析系统,具体是一种大数据分析系统。
技术介绍
近年来网络发展飞快,使用互联网的人也越来越多,人们在使用互联网进行日常活动的时候,例如网购、看节目等,会产生大量的数据,这些数据对于电子商务网站或者互联网媒体类的网站来说是非常宝贵的,利用这些大数据的处理分析,能得到宝贵的商业价值,可以应用到很多领域内,大数据的出现,正在引发全球范围内深刻的技术与商业变革,在技术上,大数据使从数据当中提取信息的常规方式发生了变化,在搜索引擎和在线广告中发挥着重要作用的机器学习,被认为是大数据发挥真正价值的领域,所以在海量的数据统计中分析出人的行为、习惯等方式,从而最大程度帮助广告主找到精准潜在客户,提升了广告的效果。
技术实现思路
本专利技术的目的在于提供一种大数据分析系统,以解决上述
技术介绍
中提出的问题。为实现上述目的,本专利技术提供如下技术方案:一种大数据分析系统,包括收集分析系统和数据存放系统;所述收集分析系统设置有搜索引擎、第一标记模块、过滤系统、临时数据存放模块、数据输入模块、比对模块、过滤模块、数据采集模块、编译模块、数据库、网络服务器、计算模块、对比模块、storm拓扑结构架构、操作系统、调取模块、广告数据库和客户端;所述搜索引擎为收集分析系统的开始端口,搜索引擎便于使用者输入关键词,进行相关信息搜索;所述第一标记模块设置在搜索引擎数据的输出线路上,第一标记模块用于将每个网络IP地址输出的数据标记一个特别的符号;所述过滤系统设置在第一标记模块的数据输出端,过滤系统用于阻碍个人搜索时搜索的不良信息数据;所述临时数据存放模块连接着第一标记模块的数据输出端,临时数据存放模块用于短暂存放通过的数据,便于对数据进行分析;所述数据输入模块设置在过滤系统的输入端口,数据输入模块便于工作人员提前输入需要过滤的不良信息数据;所述比对模块连接在临时数据存放模块和数据输入模块之间,比对模块用于将临时数据存放模块和数据输入模块中的数据进行对比,从而标记出临时数据存放模块中的不良信息数据;所述过滤模块设置在比对模块的数据输出端口处且过滤模块的输出端连接着数据采集模块,过滤模块用于将比对模块中标记的不良信息数据过滤掉,避免后续数据分析产生问题;所述数据采集模块设置在第一标记模块的数据输出端口处,数据采集模块将搜索的关键词收集起来,便于后续处理;所述编译模块设置在数据采集模块的数据输出端口处,编译模块将收集的数据转换为计算机语言,便于计算机系统进行处理;所述数据库的数量对应于网络IP地址的数量,处于编译模块的数据输出端口处,每个数据库用于对应存放标记有不同符号的数据;所述数据库选择为Mysql数据库,Mysql数据库开放性强,便于工作人员随时修改数据库内的数据,避免不良信息过多;所述网络服务器设置在数据库之间,网络服务器用于将各个数据库联系在一起,便于将各个数据库的数据汇集处理,再反馈到每个数据库中,节约处理时间;所述网络服务器为Apache服务器,Apache服务器易于外界对数据库进行访问操作,便于管理者对数据库中的数据进行其他方面的使用;所述计算模块设置在网络服务器的数据输出端口处,计算模块采用平均值计算规则,将关键词出现的次数除以对应天数,得到数值,公式为L=N/T,其中L为比值数字,N为关键词出现次数,T为从第一次出现后过的天数;所述对比模块设置在计算模块的数据输出端口,对比模块用于对比每种标记的各个关键词的计算比值,输出最大比值的关键词;所述storm拓扑结构架构设置在对比模块的数据输出端口处,storm拓扑结构架构用于矫正对比模块在对比数据过程中发生错误,对其进行矫正;所述操作系统设置在网络服务器的另一个数据输出端口处,操作系统用于从各个数据库中调取处理过后的数据;所述操作系统选择为Linux系统,Linux系统便于不同客户以各自的访问权限访问,互不影响;所述调取模块设置在操作系统的输出端口处,调取模块根据操作系统中提取出的数据调取相关的广告,发送至相对应的网络IP地址,实现人性化的广告推送;所述广告数据库与调取模块相连通,广告数据库便于调取模块调取相对应的广告;所述客户端设置在调取模块的数据输出端口处,一个网络IP地址对应一个客户端,便于每个客户端得到相应的广告推送;所述;所述数据存放系统设置有数据库、第二标记模块、第一存储模块、第二存储模块和累加模块;所述第二标记模块设置在每个数据库的网络服务器反馈端口,第二标记模块将处理过的数据再次标记一次,便于与数据库内未处理的数据分开;所述第一存储模块设置在每个数据库内,第一存储模块用于存放未处理的数据;所述第二存储模块设置在每个数据库内,第二存储模块用于存放已处理过的数据;所述累加模块设置在第一存储模块处,累加模块用于计数关键词出现的次数,并且每过二十四小时,为公式L=N/T中的天数T加一,提供数据分析的准确度。作为本专利技术进一步的方案:所述操作系统选择为Linux系统。作为本专利技术再进一步的方案:所述网络服务器为Apache服务器。作为本专利技术再进一步的方案:所述数据库选择为Mysql数据库。与现有技术相比,本专利技术的有益效果是:本专利技术公布的搜索引擎便于使用者输入关键词,进行相关信息搜索;第一标记模块用于将每个网络IP地址输出的数据标记一个特别的符号;过滤系统用于阻碍个人搜索时搜索的不良信息数据;临时数据存放模块用于短暂存放通过的数据,便于对数据进行分析;数据输入模块便于工作人员提前输入需要过滤的不良信息数据;比对模块用于将临时数据存放模块和数据输入模块中的数据进行对比,从而标记出临时数据存放模块中的不良信息数据;过滤模块用于将比对模块中标记的不良信息数据过滤掉,避免后续数据分析产生问题;数据采集模块将搜索的关键词收集起来,便于后续处理;编译模块将收集的数据转换为计算机语言,便于计算机系统进行处理;每个数据库用于对应存放标记有不同符号的数据;Mysql数据库开放性强,便于工作人员随时修改数据库内的数据,避免不良信息过多;网络服务器用于将各个数据库联系在一起,便于将各个数据库的数据汇集处理,再反馈到每个数据库中,节约处理时间;Apache服务器易于外界对数据库进行访问操作,便于管理者对数据库中的数据进行其他方面的使用;计算模块采用平均值计算规则,将关键词出现的次数除以对应天数,得到数值,公式为L=N/T,其中L为比值数字,N为关键词出现次数,T为从第一次出现后过的天数;对比模块用于对比每种标记的各个关键词的计算比值,输出最大比值的关键词;storm拓扑结构架构用于矫正对比模块在对比数据过程中发生错误,对其进行矫正;操作系统用于从各个数据库中调取处理过后的数据;Linux系统便于不同客户以各自的访问权限访问,互不影响;调取模块根据操作系统中提取出的数据调取相关的广告,发送至相对应的网络IP地址,实现人性化的广告推送;广告数据库便于调取模块调取相对应的广告;一个网络IP地址对应一个客户端,便于每个客户端得到相应的广告推送;第二标记模块将处理过的数据再次标记一次,便于与数据库内未处理的数据分开;第一存储模块用于存放未处理的数据;第二存储模块用于存放已处理过的数据;累加模块用于计数关键词出现的次数,并且每过二十四小时,为公式L=N/T中的天数T加一,提供数本文档来自技高网...
一种大数据分析系统

【技术保护点】
一种大数据分析系统,包括收集分析系统和数据存放系统;其特征于,所述收集分析系统设置有搜索引擎、第一标记模块、过滤系统、临时数据存放模块、数据输入模块、比对模块、过滤模块、数据采集模块、编译模块、数据库、网络服务器、计算模块、对比模块、storm拓扑结构架构、操作系统、调取模块、广告数据库和客户端;所述搜索引擎为收集分析系统的开始端口,搜索引擎便于使用者输入关键词,进行相关信息搜索;所述第一标记模块设置在搜索引擎数据的输出线路上,第一标记模块用于将每个网络IP地址输出的数据标记一个特别的符号;所述过滤系统设置在第一标记模块的数据输出端,过滤系统用于阻碍个人搜索时搜索的不良信息数据;所述临时数据存放模块连接着第一标记模块的数据输出端,临时数据存放模块用于短暂存放通过的数据,便于对数据进行分析;所述数据输入模块设置在过滤系统的输入端口,数据输入模块便于工作人员提前输入需要过滤的不良信息数据;所述比对模块连接在临时数据存放模块和数据输入模块之间,比对模块用于将临时数据存放模块和数据输入模块中的数据进行对比,从而标记出临时数据存放模块中的不良信息数据;所述过滤模块设置在比对模块的数据输出端口处且过滤模块的输出端连接着数据采集模块,过滤模块用于将比对模块中标记的不良信息数据过滤掉,避免后续数据分析产生问题;所述数据采集模块设置在第一标记模块的数据输出端口处,数据采集模块将搜索的关键词收集起来,便于后续处理;所述编译模块设置在数据采集模块的数据输出端口处,编译模块将收集的数据转换为计算机语言,便于计算机系统进行处理;所述数据库的数量对应于网络IP地址的数量,处于编译模块的数据输出端口处,每个数据库用于对应存放标记有不同符号的数据;所述数据库选择为Mysql数据库,Mysql数据库开放性强,便于工作人员随时修改数据库内的数据,避免不良信息过多;所述网络服务器设置在数据库之间,网络服务器用于将各个数据库联系在一起,便于将各个数据库的数据汇集处理,再反馈到每个数据库中,节约处理时间;所述网络服务器为Apache服务器,Apache服务器易于外界对数据库进行访问操作,便于管理者对数据库中的数据进行其他方面的使用;所述计算模块设置在网络服务器的数据输出端口处,计算模块采用平均值计算规则,将关键词出现的次数除以对应天数,得到数值,公式为L=N/T,其中L为比值数字,N为关键词出现次数,T为从第一次出现后过的天数;所述对比模块设置在计算模块的数据输出端口,对比模块用于对比每种标记的各个关键词的计算比值,输出最大比值的关键词;所述storm拓扑结构架构设置在对比模块的数据输出端口处,storm拓扑结构架构用于矫正对比模块在对比数据过程中发生错误,对其进行矫正;所述操作系统设置在网络服务器的另一个数据输出端口处,操作系统用于从各个数据库中调取处理过后的数据;所述操作系统选择为Linux系统,Linux系统便于不同客户以各自的访问权限访问,互不影响;所述调取模块设置在操作系统的输出端口处,调取模块根据操作系统中提取出的数据调取相关的广告,发送至相对应的网络IP地址,实现人性化的广告推送;所述广告数据库与调取模块相连通,广告数据库便于调取模块调取相对应的广告;所述客户端设置在调取模块的数据输出端口处,一个网络IP地址对应一个客户端,便于每个客户端得到相应的广告推送;所述;所述数据存放系统设置有数据库、第二标记模块、第一存储模块、第二存储模块和累加模块;所述第二标记模块设置在每个数据库的网络服务器反馈端口,第二标记模块将处理过的数据再次标记一次,便于与数据库内未处理的数据分开;所述第一存储模块设置在每个数据库内,第一存储模块用于存放未处理的数据;所述第二存储模块设置在每个数据库内,第二存储模块用于存放已处理过的数据;所述累加模块设置在第一存储模块处,累加模块用于计数关键词出现的次数,并且每过二十四小时,为公式L=N/T中的天数T加一,提供数据分析的准确度。...

【技术特征摘要】
1.一种大数据分析系统,包括收集分析系统和数据存放系统;其特征于,所述收集分析系统设置有搜索引擎、第一标记模块、过滤系统、临时数据存放模块、数据输入模块、比对模块、过滤模块、数据采集模块、编译模块、数据库、网络服务器、计算模块、对比模块、storm拓扑结构架构、操作系统、调取模块、广告数据库和客户端;所述搜索引擎为收集分析系统的开始端口,搜索引擎便于使用者输入关键词,进行相关信息搜索;所述第一标记模块设置在搜索引擎数据的输出线路上,第一标记模块用于将每个网络IP地址输出的数据标记一个特别的符号;所述过滤系统设置在第一标记模块的数据输出端,过滤系统用于阻碍个人搜索时搜索的不良信息数据;所述临时数据存放模块连接着第一标记模块的数据输出端,临时数据存放模块用于短暂存放通过的数据,便于对数据进行分析;所述数据输入模块设置在过滤系统的输入端口,数据输入模块便于工作人员提前输入需要过滤的不良信息数据;所述比对模块连接在临时数据存放模块和数据输入模块之间,比对模块用于将临时数据存放模块和数据输入模块中的数据进行对比,从而标记出临时数据存放模块中的不良信息数据;所述过滤模块设置在比对模块的数据输出端口处且过滤模块的输出端连接着数据采集模块,过滤模块用于将比对模块中标记的不良信息数据过滤掉,避免后续数据分析产生问题;所述数据采集模块设置在第一标记模块的数据输出端口处,数据采集模块将搜索的关键词收集起来,便于后续处理;所述编译模块设置在数据采集模块的数据输出端口处,编译模块将收集的数据转换为计算机语言,便于计算机系统进行处理;所述数据库的数量对应于网络IP地址的数量,处于编译模块的数据输出端口处,每个数据库用于对应存放标记有不同符号的数据;所述数据库选择为Mysql数据库,Mysql数据库开放性强,便于工作人员随时修改数据库内的数据,避免不良信息过多;所述网络服务器设置在数据库之间,网络服务器用于将各个数据库联系在一起,便于将各个数据库的数据汇集处理,再反馈到每个数据库中,节约处理时间;所述网络服务器为Apache服务器,Apache服务器易于外界对数据库进行...

【专利技术属性】
技术研发人员:李长青孙鹏王丽霞李志文董艳华
申请(专利权)人:北京恒冠网络数据处理有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1