当前位置: 首页 > 专利查询>天津大学专利>正文

一种面向大数据的多范型融合分析处理方法技术

技术编号:15799173 阅读:255 留言:0更新日期:2017-07-11 13:19
本发明专利技术公开了一种面向大数据的多范型融合分析处理方法,该方法包括以下步骤:数据预处理阶段;配置文件阶段:数据查询分析阶段;用户反馈阶段。本发明专利技术提出的基于GBase数据库的大数据多范型融合分析处理是可以有效满足大数据分析市场需求的解决方案。

Multi paradigm fusion analysis processing method for large data

The invention discloses a multi paradigm for the integration of large data analysis methods, the method comprises the following steps: data preprocessing; configuration file: data query analysis stage; user feedback stage. The method of fusion and analysis of large data and multiple patterns based on GBase database provided by the invention is a solution that can effectively meet the market demand of large data analysis.

【技术实现步骤摘要】
一种面向大数据的多范型融合分析处理方法
本专利技术涉及互联网
,具体地说,涉及一种面向大数据的多范型融合分析处理方法。
技术介绍
自上世纪90年代万维网应用普及以来,人类社会每年产生和收集的数据量以惊人的速度增长着。从目前万维网应用的发展趋势看,数据增长速率有增无减,已远超过摩尔定律的增长速率。IDC的调查显示,从2013开始全球产生的数据量以每年40%的速度增长,到2020年全球数据量将增长为现在的10倍,即44。毋容置疑,这标志着人类早经迈入了“大数据时代”。大数据的特点可概括为:大容量(Volume)、高速率(Velocity)、多样化(Variety)和总体价值(Value),即“4个V”。在大数据时代,数据在量上的增长已经产生了质的飞跃,原来很多困难的事情,借助大数据已变成了现实,大数据分析应运而生。大数据分析(BigDataAnalysis)是通过计算工具处理和分析大数据集,从中发现隐藏的模式、未知的关联、未来的趋势、用户的偏好、有用的商业信息等各种新知识。这项技术对于任何企业和组织的发展都是至关重要的,因为它使得大数据成为了推动企业进行科学决策和战略发展的抓手,将大数据化为了一种与竞争对手比拼的战略资源。可以预见,在未来十年的时间内,谁成功驾驭了大数据分析的利器,谁就赢得了未来企业竞争的商机,谁就能够占领行业制高点。传统关系型数据管理技术虽然经历了并行化的发展,但在一些特殊的应用场景下,依旧不能满足大数据的分析任务,在扩展性和适应性上遇到了巨大障碍。大数据分析方法与技术需要解决的矛盾是:如何在尽量短的时间内,处理和分析尽量多的数据以发现和获取尽量丰富的新知识。作为大数据科学与技术的一个主要方向,当下的大数据分析理论、方法和技术和工具还远未达到现实世界中企业对大数据进行分析处理的要求。突破若干大数据分析面临的棘手问题,研发出一套大数据分析的有效工具,对于从事大数据分析的研究者和实践者来说是迫在眉睫的任务。
技术实现思路
本专利技术的目的在于提供一种面向大数据的多范型融合分析处理方法,提出采用“混合架构”(HybridArchitecture)和“多范型融合”(Multi-paradigm)为两大支柱的大数据分析新型理论与技术体系,力图攻克大数据分析中混合数据模式、异构数据源、业务流程复杂、分析工具脱节等多种理论和技术难题。为实现上述技术目的,达到上述技术效果,其技术方案具体为:一种面向大数据的多范型融合分析处理方法,包括以下步骤:步骤1、数据预处理阶段:该阶段独立于以下业务流程阶段,是用户将所需要的数据经过用户自定义的规则进行数据清理并存入关系数据库的过程,用户需记录该关系数据库的位置、用户名、密码的连接数据库时所用到基本信息;步骤2、配置文件阶段:配置文件分为关系数据库配置文件和机器学习配置文件,用户需要在配置文件中按照给出的标签填写相应的参数信息,具体的数据库配置文件中,“configuration”表示配置文件的开始,在“database”标签内填写有关数据库的信息,其中,用户需要在“url”中指明在步骤1中提到的数据库的位置信息,“user”表示该数据库连接时需要用到的用户名,“password”是该用户名对应的密码,“sql”是数据库查询语句;具体的机器学习配置文件中,“database”与上述的数据库配置文件中的相同,“parameter”表示调用的机器学习算法所需的除了输入参数外的其他参数,“algorithm”表示需要调用的算法名;步骤3、数据查询分析阶段:根据用户提供的配置文件信息,开始数据库查询和机器学习算法调用,除了“ConfigurationFile”部分通过据查询信息,框架根据配置文件中有关机器学习的配置文件在机器学习算法库中调用相应的机器学习算法,根据配置文件中有关数据库查询的配置文件在数据库中进行数据查询,然后将查询得到的结果与机器学习计算得到的结果进行比较,判断这两部分得到的信息是否符合查询,最终将查询结果反馈给用户;步骤4、用户反馈阶段:用户根据框架提供的结果判断是否是用户希望得到的信息,如果有出入则在配置文件中进行参数调整,再次运行框架以得到结果,多次迭代该过程以达到用户最终期望的结果。本专利技术具有以下有益效果:本专利技术提出的基于GBase数据库的大数据多范型融合分析处理是可以有效满足大数据分析市场需求的解决方案。主要表现在:①基于GBase数据库构建“混合架构”的大数据分析处理系统,可以有效适应既涉及关系数据又需要分布式大数据支持的数据分析情景;②大数据的多范型融合分析处理,应用面向大数据的分析处理方法学,综合使用经典OLAP,机器学习和图分析等多种手段处理大数据,发挥经典OLAP在数据立方体分析,机器学习算法在智能化预测模型建立和图分析在大图复杂网络结构特征方面的优势,满足市场对于精准化、智能化大数据分析的新需求。目前南大通用的GBase8a数据库稳固地占据着国内分析型数据库的主要市场份额。本专利技术充分发挥南大通用在国产数据库产业链中的产品优势,打造基于GBase数据库的面向大数据多范型融合分析处理的原型系统,产学研紧密结合,有利于加速大数据多范型融合分析理论与技术的产业化步伐,从而进一步加强天津国产数据库在信息产业链中的地位。本专利技术具有良好的产业化前景。由于本专利技术是基于GBase数据库的大数据多范型融合分析处理关键技术,可以通过产业化过程,发展成为下一代GBase数据库发布版本中的创新功能,从而填补在现有产业链中国产大数据分析产品的空白。对相关技术与产品及其产业的带动作用具体可概括为:①将大数据多范型融合分析处理理论体系和技术与GBase数据库集成在一起,可以实现完全自主知识产权的国产大数据分析产品,做到代码自主可控,完全符合“自主可控、安全可靠”的国家信息安全战略,进而为提升国家的信息安全水平做出重大贡献。②以国产大数据分析产品为基础,带动大数据集成、大数据中间件、大数据可视化、大数据决策支持系统等多种下游软件产品的产业化发展,催生新的大数据分析产业生态环境的形成,促进我国信息产业的发展。附图说明图1为本专利技术面向大数据的多范型融合分析处理方法的流程图;图2为具体的数据库配置文件;图3为具体的机器学习配置文件。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。本专利技术是一个面向大数据的多范型融合分析处理框架,是一种多领域的通用技术,详细的业务流程参见图1:1、数据预处理阶段:该阶段独立于以下业务流程阶段,是用户将所需要的数据经过用户自定义的规则进行数据清理并存入关系数据库的过程,用户需记录该关系数据库的位置、用户名、密码等连接数据库时所用到基本信息;2、配置文件阶段:即图1中“ConfigurationFile”,该配置文件分为关系数据库配置文件和机器学习配置文件,详细的文件内容如图2,图3。用户需要在配置文件中按照给出的标签填写相应的参数信息。图2是具体的数据库配置文件,“configuration”表示配置文件的开始,在“database”标签内填写有关数据库的信息,其中,用户需要在“url”中指明在步骤一中提到的数据库的位置信息,“user”表示该数据库连接时需要用到的用户名,“pa本文档来自技高网
...
一种面向大数据的多范型融合分析处理方法

【技术保护点】
一种面向大数据的多范型融合分析处理方法,其特征在于,包括以下步骤:步骤1、数据预处理阶段:该阶段独立于以下业务流程阶段,是用户将所需要的数据经过用户自定义的规则进行数据清理并存入关系数据库的过程,用户需记录该关系数据库的位置、用户名、密码的连接数据库时所用到基本信息;步骤2、配置文件阶段:配置文件分为关系数据库配置文件和机器学习配置文件,用户需要在配置文件中按照给出的标签填写相应的参数信息,具体的数据库配置文件中,“configuration”表示配置文件的开始,在“database”标签内填写有关数据库的信息,其中,用户需要在“url”中指明在步骤1中提到的数据库的位置信息,“user”表示该数据库连接时需要用到的用户名,“password”是该用户名对应的密码,“sql”是数据库查询语句;具体的机器学习配置文件中,“database”与上述的数据库配置文件中的相同,“parameter”表示调用的机器学习算法所需的除了输入参数外的其他参数,“algorithm”表示需要调用的算法名;步骤3、数据查询分析阶段:根据用户提供的配置文件信息,开始数据库查询和机器学习算法调用,除了“Configuration File”部分通过据查询信息,框架根据配置文件中有关机器学习的配置文件在机器学习算法库中调用相应的机器学习算法,根据配置文件中有关数据库查询的配置文件在数据库中进行数据查询,然后将查询得到的结果与机器学习计算得到的结果进行比较,判断这两部分得到的信息是否符合查询,最终将查询结果反馈给用户;步骤4、用户反馈阶段:用户根据框架提供的结果判断是否是用户希望得到的信息,如果有出入则在配置文件中进行参数调整,再次运行框架以得到结果,多次迭代该过程以达到用户最终期望的结果。...

【技术特征摘要】
1.一种面向大数据的多范型融合分析处理方法,其特征在于,包括以下步骤:步骤1、数据预处理阶段:该阶段独立于以下业务流程阶段,是用户将所需要的数据经过用户自定义的规则进行数据清理并存入关系数据库的过程,用户需记录该关系数据库的位置、用户名、密码的连接数据库时所用到基本信息;步骤2、配置文件阶段:配置文件分为关系数据库配置文件和机器学习配置文件,用户需要在配置文件中按照给出的标签填写相应的参数信息,具体的数据库配置文件中,“configuration”表示配置文件的开始,在“database”标签内填写有关数据库的信息,其中,用户需要在“url”中指明在步骤1中提到的数据库的位置信息,“user”表示该数据库连接时需要用到的用户名,“password”是该用户名对应的密码,“sql”是数据库查询语句;具体的机器学习配置文件中,“datab...

【专利技术属性】
技术研发人员:张小旺冯志勇张嘉慧
申请(专利权)人:天津大学
类型:发明
国别省市:天津,12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1