一种大数据分析系统及方法技术方案

技术编号:14768196 阅读:111 留言:0更新日期:2017-03-08 12:29
本发明专利技术公开了一种大数据分析系统及方法。大数据分析系统包括:数据检索模块,数据滤出模块,数据聚类模块,和,信息提取模块。所述数据检索模块,用于数据检索,将数据集中的数据属性和属性值划分开来,构建双层索引结构。所述据检索模块,首先为数据集中数据的属性建立上层索引;其次对上层属性所对应的数据值建立索引,如果是数值型数据就构建B+树索引结构,如果是字符型数据就构建倒排索引。本发明专利技术基于改进预测强度的k‑均值聚类方法对实例中大数据的聚类结果是可信且有实际意义的。

【技术实现步骤摘要】

本专利技术涉及计算机科学
,特别涉及一种大数据分析系统及方法
技术介绍
当前,互联网把所有入网的计算机全部相连,从根本上影响了人们的生产生活,这是目前获取各种数据的首选。通过互联网由客户端到服务器获取数据的模式可以概括为“请求”+“响应”的模式。这是互联网应用协议的基本模式。点击鼠标就是在发送命令,然后进行访问,每个人的访问记录都详细地记录在浏览日志中,包括时间、请求内容、地址等具体数据。互联网上的数据都是由这些访问记录连在一起共同组成的,这跟猎人通过追踪痕迹捕捉猎物是同样的道理,访问日志蕴藏着巨大的价值。因此,这也是大数据的重要来源之一。世界最大的几家互联网企业如Google、Amazon、Facebook、Twitter等正称霸着全球的互联网行业,它们之所以如此成功都有一个共同的因素,那就是超强的数据分析能力。这些企业每天分析处理大量的数据信息,以大数据为手段,发掘其中的商业机会,Google是这些企业中最典型的代表。据统计,Google每月的搜索达上千亿次,并对搜索信息进行分析和处理,所处理的数据量达到600PB(1PB=100万GB,这个信息量据说相当于100万年新闻早报的总和)。所有通过谷歌搜索引擎搜索的内容和数据信息都会被其分析使用。比如,在用Google进行搜索时,在搜索框中键入关键词,会显示出跟搜索内容相关的信息,如果输入“大数据”,搜索结果会提示“大数据概念”、“大数据时代”、“大数据技术”等内容。这是在大量历史搜索信息的基础上利用大数据技术进行分析的结果。此外,如果输入的是错误信息,或直接以拼音方式输入,谷歌会自动修正搜索内容,然后给出正确的建议,这种搜索功能运用了同样的搜索理论。与传统的企业经营数据相比,大数据有两个不同之处。第一,数据量庞大,但与传统的销售额、库存量等数据信息不同,Google、Facebook等互联网企业对网站点击产生的数据进行处理时在分析和管理方法上差别很大。大数据处理的核心,不是结构化数据,而是上述的网站点击流数据和社交网络上产生的数据,以及传感器数据上存储的数据,无法存储在数据库里,统称为非结构化数据。第二,从数据处理的企业类型来看,真正掌握庞大数据存储和分析技术的不是传统的实体行业,而是新兴的互联网企业(Google)、社交网络(Facebook)和电商企业(Amazon)等。前者可以委托后者为其进行大数据信息分析和处理服务。Facebook可以产生30PB的数据量,而沃尔玛产生的数据量只有2.5PB,不仅在数据量上,同时在数据的多样性和产生的速度上差别也很大。由上可知,大型互联网企业在互联网蓬勃发展的时期,对于其它企业容易忽视的数据价值,能够及时开发出低成本存储和处理的技术,并将其中有价值的信息提取出来,整合运用到业务流程中,逐渐形成了自身的竞争优势,在互联网企业中脱颖而出。目前,随着这些互联网企业的影响越来越大,更多的企业开始重视大数据的分析,利用大数据通过提供新型服务,来提升客户满意度,进而提高企业的竞争优势。大数据以迅猛的发展态势在短短两三年内迅速渗透到不同行业、不同领域中,使生产效率得到大幅提高,大数据的发展趋势与生产力的提高息息相关。数据量呈现指数级增长。很多研究机构共同的研究成果表明,全球数据总量将在未来数年内呈现指数级增长。据美国咨询机构麦肯锡估计,2010年全球企业存储的新数据量已超过7EB,用户个人电脑上存储了超过6EB的新数据。不同行业的大数据强度和内容各有不同。各个行业存储的数据量都不相同,大数据的增长根据行业的不同,产生和存储的数据类型也不相同。数据存储量最大的领域有证券、投资咨询以及银行等金融机构,通信公司、媒体中介以及政府事业单位等部门产生的数据规模也很大。这些拥有数据资产的行业在大数据利用方面有着很大的价值潜力。现有趋势将继续推动数据增长。在不同的地区和行业之间,相关企业都在加快速度收集数据,同时也推动了传统的事务数据库的增长;多媒体在医疗卫生等民生领域的广泛应用,大幅增加了大数据的产生;网络社交的普遍应用和物联网在生产生活中的广泛应用都在推动着大数据的不断增长,这些不同行业的交叉应用进一步刺激了大数据的增长和数据池的迅速扩张。大数据是未来推动生产力发展的新的技术前沿。大数据要想成为具有较强的竞争力、生产力、创新能力,需要有适当的政策推动,这也是创造消费者盈余的关键要素。在医疗卫生行业,充分利用大数据,可以降低运作成本,避免不必要的治疗,减少治疗事故发生的概率,改进和提升医疗服务质量;在公共管理领域,税收部门可以利用大数据来推动税收工作的开展,提高相关纳税部门的工作效率;在零售行业,提高和改善行业的效率可以通过供应链和业务的大数据应用来实现;在市场营销领域,充分利用大数据,为消费者以更合适的价格找到符合其需求的产品,提高服务的附加值。现今,数据也是一种资产,可以比肩物质资产和人力资本,同时它也是一种生产要素。随着社会生活中多媒体、物联网等新兴行业的发展,企业将从这些媒介中收集到更多的信息,从而带来数据的迅速增长。大数据在商业服务和为消费者创造价值上都能发挥出巨大的潜力。
技术实现思路
本专利技术所要解决的技术问题在于,提供了一种大数据分析系统及方法。本专利技术大数据分析方法中,采用混合索引结合用并延续了B+树和倒排索引二者的优点,同时又避开了它们各自的缺点。提高索引构建的速度和存储利用率的同时还能实现了对数值型数据的范围查询功能。本专利技术数据滤出通过项目向量压缩的手段提取各项目的评分特征,有效地解决了推荐系统中的稀疏性问题,同时极大地提高了项目相似性的计算效率。最后,通过实验对均模型的改进效果进行了验证,实验结果表明本专利技术改进后的均模型对于评分较少的项目拥有更好的推荐效果,更符合实际系统的应用需求。为解决上述技术问题,本专利技术提供了一种大数据分析系统,包括:数据检索模块,数据滤出模块,数据聚类模块,和,信息提取模块。所述数据检索模块,用于数据检索,将数据集中的数据属性和属性值划分开来,构建双层索引结构。所述据检索模块,首先为数据集中数据的属性建立上层索引;其次对上层属性所对应的数据值建立索引,如果是数值型数据就构建B+树索引结构,如果是字符型数据就构建倒排索引。所述数据滤出模块,用于数据检索后的数据滤出;所述数据滤出,采取以下均模型的变换形式:假设待变换项目i的评分向量为Ii={r1i,r2i,r3i,…,rmi本文档来自技高网
...
一种大数据分析系统及方法

【技术保护点】
一种大数据分析系统,其特征在于,包括:数据检索模块,数据滤出模块,数据聚类模块,和,信息提取模块。

【技术特征摘要】
1.一种大数据分析系统,其特征在于,包括:数据检索模块,数据滤出模块,数据聚类模块,和,信息提取模块。2.根据权利要求1所述大数据分析系统,其特征在于,所述数据检索模块,用于数据检索,将数据集中的数据属性和属性值划分开来,构建双层索引结构。3.根据权利要求1所述大数据分析系统,其特征在于,所述据检索模块,首先为数据集中数据的属...

【专利技术属性】
技术研发人员:韦天瀚刘国庆李海威黄震廷吴华
申请(专利权)人:广东港鑫科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1