一种云平台数据查询方法技术

技术编号:12581101 阅读:50 留言:0更新日期:2015-12-23 19:25
本发明专利技术提供了一种云平台数据查询方法,该方法包括:将数据查询转换为等价的关系代数表达式,然后从各等价表达式中选择最优代数表达式进行查询优化处理,并选择最优的节点路径和数据传输方式在云平台各个节点之间进行数据交互。本发明专利技术提出了一种云平台金融数据查询方法,按照属性传输减少请求节点的连接时间,在传输量和响应时间的性能优化上效果明显,提高了数据查询的效率。

【技术实现步骤摘要】

本专利技术涉及金融数据处理,特别涉及。
技术介绍
金融数据是投资者进行投资决策、券商投研部门进行研究的重要依据,为公司客户和投研部门提供及时、准确、易用的金融数据一直是相关部门所面临的一项长期而艰巨的挑战。随着网络富信息化和大数据时代的到来,目前金融数据中已包含大量的结构化和非结构化信息,且增量巨大。在云计算网络科技技术水平飞跃发展的同时,为了避免有用的数据信息流失,就需要建立相应的数据库作为载体来存储这些数据。但由于基于云计算的数据库在空间上是分布式的,网络数据的异步传输通信会有一定的代价;需要通过冗余数据提尚系统可靠性,其查询处理效率有待进一步提尚。
技术实现思路
为解决上述现有技术所存在的问题,本专利技术提出了,在基于云计算的金融数据检索系统中进行数据检索和查询,包括:将数据查询转换为等价的关系代数表达式,然后从各等价表达式中选择最优代数表达式进行查询优化处理,并选择最优的节点路径和数据传输方式在云平台各个节点之间进行数据交互。优选地,所述系统中的查询类型包括本地查询、远程查询和全局查询,对于远程查询,若数据是冗余分配的,则选择从发出查询的节点最近的节点上的数据或者数据片作为查询对象;对于多点数据处理的全局查询,首先确定查询对象,然后根据可用访问路径和算法确定二元操作连接以及并操作的次序,最后选择距离提供节点数据的节点最近的并且最空闲的节点执行查询;在所述查询优化处理中,在网络中仅传输参与连接的数据,而不传递其他无用数据或者不参与连接数据,即对于两个关系R和S,分别属于不同节点;在属性R.A = S.B上做以下连接操作:R a = BS = (R ① A = BS) = R ① A = B (B (S))其中A和B分别为关系R和S的属性,B⑶为关系S在R和S连接属性B的投影。优选地,所述查询优化处理中,在网络中仅传输参与连接的数据,而不传递其他无用数据或者不参与连接数据,即对于两个关系R和S,分别属于不同节点;在属性R.A = S.B上做以下连接操作:(I)在节点B做关系S在R和S连接属性B的投影B⑶;(2)将B (S)发送到节点A ;(3)节点A依据接收到的投影值计算半连接结果W = R OO A = bB⑶;(4)计算R'的投影为A(R');(5)发送 A(R')到节点 B;(6)在B节点执行A(R' )°°A = BS连接操作。优选地,所述金融数据检索系统包括业务服务器、应用服务器、数据服务器、整合服务器及各数据库;其中,业务服务器通过调用应用服务器进行信息检索,使用数据信息进行推送服务;应用服务器对数据进行统一的索引与维护;整合服务器对结构化、非结构化数据进行整合,采用查重机制及数据推送技术实现数据的分类汇总和规整,并通过协议接口和前端页面展示为用户及业务服务器提供信息服务;整合服务器整合分散在各数据库系统、文件系统以及互联网的金融数据,对数据进行采集和清洗,并通过基于业务主体域的数据整合策略将不同来源主体的数据整合形成数据服务器;数据整合服务的主要过程包括:首先将查询请求以XMLSchema形式传递到数据抽取模块,数据抽取模块将XML转换成SQL查询语句,然后根据查询结果进行数据抽取,最后把抽取出来的结果集转换成XML的格式传递给集成处理模块,非结构化数据也需转化成XML格式,再由集成处理模块对XML文档做集成处理并最终生成统一的数据服务器;利用基于段落主题的文本查重机制,使用文本数据的主题信息来比较其相似度,实现对于相同主题和雷同内容的金融数据的归类,由文本中的每个段落产生一个特征值,将一个文本表达为基于段落主题的特征值集合;通过比较两个文本的段落特征值来计算两个文本的相似度,最后相似度超过设定阈值时则认为是重复文本,进行查重操作;该数据查重框架的整体结构包括:查重组件、查重配置管理、查重结果分析三部分;其中,查重组件通过语义解析引擎用于对数据内容进行分词处理,特征值生成器根据分词结果生成数据的特征值特征,将64位的特征值按相同规则被均分4组进行索引存储;在特征值比对过程中,首先进行数据计算的降维,并计算数据特征值特征与特征值库的数据特征值海明距离大于或等于3的比对结果;查重配置管理用于对数据查重的结果进行日志记录,并检查数据查重的结果;此外,检索系统中的数据推送系统采用基于用户行为聚类的推送算法来实现个性化的数据推送服务;通过建立用户和数据之间相互对应的二元关系,利用用户行为的相似性关系来挖掘每个用户潜在感兴趣的对象,进而进行个性化的推送;数据推送系统由用户信息的行为日志记录模块、用户偏好的模型分析模块和推送算法模块三部分组成;其中行为日志记录模块用于在各业务接触点记录用户的各种行为信息,包括页面的停留时间、点击序列、内容浏览记录以及用户的个人信息和交易历史(来源于集中交易系统)、行情浏览历史(来源行情系统);用户偏好的模型分析模块用于对用户行为日志的分析,对用户多角度的属性加以测算和评分,为每一个用户建立各自的多属性描述,并运用业务知识和数据挖掘工具对用户的众多属性评分进行聚类,将具有相似行为模式的用户聚集在一起;推送算法模块则是利用组合算法从数据服务器中根据分类分级用户模型为用户实时计算出各数据的客户兴趣度,并返回其中给业务前台进行集中展示。本专利技术相比现有技术,具有以下优点:本专利技术提出了一种云平台金融数据查询方法,按照属性传输减少请求节点的连接时间,在传输量和响应时间的性能优化上效果明显,提高了数据查询的效率。【附图说明】图1是根据本专利技术实施例的云平台数据查询方法的流程图。【具体实施方式】下文与图示本专利技术原理的附图一起提供对本专利技术一个或者多个实施例的详细描述。结合这样的实施例描述本专利技术,但是本专利技术不限于任何实施例。本专利技术的范围仅由权利要求书限定,并且本专利技术涵盖诸多替代、修改和等同物。在下文描述中阐述诸多具体细节以便提供对本专利技术的透彻理解。出于示例的目的而提供这些细节,并且无这些具体细节中的一些或者所有细节也可以根据权利要求书实现本专利技术。图1是根据本专利技术实施例的云平台数据查询方法流程图。本专利技术基于云计算的金融数据检索系统主要包括以下部分:业务服务器、应用服务器、数据服务器、整合服务器及各数据库。其中,业务服务器通过调用应用服务器进行信息检索,使用数据信息进行推送服务。应用服务器具有检索与索引能力,用于对数据进行统一的索引与维护。整合服务器具备对结构化、非结构化数据进行整合的能力,采用查重机制及数据推送技术实现数据的分类汇总和规整,并通过协议接口和前端页面展示为用户及业务服务器提供信息服务。其中,整合服务器整合分散在各数据库系统、文件系统以及互联网的金融数据,对数据进行采集和清洗,并通过基于业务主体域的数据整合策略将不同来源主体的数据整合形成数据服务器。数据整合服务的主要过程包括:首先将查询请求以XMLSchema形式传递到数据抽取模块,数据抽取模块将XML转换成SQL查询语句,然后根据查询结果进行数据抽取,最后把抽取出来的结果集转换成XML的格式传递给集成处理模块,同样,非结构化数据也需转化成XML格式,再由集成处理模块对XML文档做集成处理并最终生成统一的数据服务器。金融行业系统数据量很大,对数据的安全性要求也很高。Hadoop框架使用分布式文件系统(HDFS)本文档来自技高网...

【技术保护点】
一种云平台数据查询方法,用于在基于云计算的金融数据检索系统中进行数据检索和查询,其特征在于,包括:将数据查询转换为等价的关系代数表达式,然后从各等价表达式中选择最优代数表达式进行查询优化处理,并选择最优的节点路径和数据传输方式在云平台各个节点之间进行数据交互。

【技术特征摘要】

【专利技术属性】
技术研发人员:张鹏
申请(专利权)人:成都布林特信息技术有限公司
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1