一种云平台数据获取方法技术

技术编号:12621536 阅读:54 留言:0更新日期:2015-12-30 19:14
本发明专利技术提供了一种云平台数据获取方法,该方法包括:将分布式环境下的多个查询方法进行集成,将非结构化查询和结构化数据查询均作为执行单元,为用户提供统一的查询界面;将用户的查询请求转换成多个成员查询方法所能识别的格式,最终将查询结果以一定的格式返回给用户。本发明专利技术提出了一种云平台金融数据获取方法,克服了传统结构化数据查询在灵活性和实用性上的弊端,降低非专业人员查询数据库的技术门槛,更好地利用业务数据的价值。

【技术实现步骤摘要】

本专利技术涉及金融数据处理,特别涉及。
技术介绍
金融数据是投资者进行投资决策、券商投研部门进行研究的重要依据,为公司客户和投研部门提供及时、准确、易用的金融数据一直是相关部门所面临的一项长期而艰巨的挑战。随着网络富信息化和大数据时代的到来,目前金融数据中已包含大量的结构化和非结构化信息,且增量巨大。在云计算网络科技技术水平飞跃发展的同时,为了避免有用的数据信息流失,就需要建立相应的数据库作为载体来存储这些数据。但云计算环境下的数据检索现状是,检索数据的规范不统一,导致对检索内容的理解不同,需求的偏差导致功能设计不规范,直接影响上下级应用之间的纵向贯通;现有的查询方法对新增需求、需求变更的管理控制效果不明显,在应对数据结构外延的变更等方面,难以拓展查询应用的边界。
技术实现思路
为解决上述现有技术所存在的问题,本专利技术提出了,在基于云计算的金融数据检索系统中进行数据检索和查询,包括:将分布式环境下的多个查询方法进行集成,将非结构化查询和结构化数据查询均作为执行单元,为用户提供统一的查询界面;将用户的查询请求转换成多个成员查询方法所能识别的格式,最终将查询结果以一定的格式返回给用户。优选地,在所述非结构化查询中,通过所述基于云计算的检索系统提供资源管理、数据整合、索引存储;并构建非结构化的数据查询服务体系;采用Hadoop开源框架构,依赖ZooKeeper机制进行分布式协调、群集元数据和配置保存,检索层提供索引更新、索引删除、查询、分词、索引库、对外接口模块;数据采集层提供基础设施和数据资源的管理模块;上下层接口用于协调两层级间的数据交互和服务传递,以业务格式标准为依据进行索引库的设计;通过人工预处理的方式将文档内容进行划分,生成不同关键词条相对应的文本段,以作为索引库建立的原始输入,使用开源Servlet技术提供的接口函数,实现索引的建立、添加、更新、删除和查询,形成用户输入关键词-关键词条-文档的倒排索引,并通过定制化的二次开发对外提供HTTP调用接口 ;在所述结构化查询中,将关键词查询应用到关系数据库,对数据库结构进行建模,使用图的方式来表征数据库的拓扑结构,形成结构化数据模式图,将数据查询问题转化为图查询问题,所述结构化数据模式图是一个无向图G= (V,E),其中V表示顶点的集合,每个顶点对应于数据库中的一个关系表,E表示边的集合,每条边对应于数据表间的一个外键关系,具体查询过程包括:步骤1:创建节点索引表,所述节点索引表表征结构化数据模式图中各顶点所包含关键字的索引结构,创建方法为:将数据表、关系表中的每列各字段拼接成文档,对该文档抽取关键词,形成关键词到表名、列名的倒排索引;步骤2:根据关键词定位关系表,对于用户输入的关键词,通过查询节点索引表来定位模式图中包含该关键词的顶点;步骤3:以关键词为中心进行数据查询;以所述步骤2生成的顶点为中心进行扩展,生成候选的数据查询模式,每个查询模式是结构化数据模式图的子图,且包含了所有的关键词;查询模式的扩展采用广度优先遍历的方法,过程如下:I)定义队列Q和V,将所有产生的中心节点作为初始模式添加到队列Q和V中;2)从Q中取出模式P,将P的关联模式{ΡρΡ2,…,PJ添加到队列Q和V中,其中关联模SP1Q = 1,2,…,η),满足以下条件:①IP1 = ρ|+ι,其中P1I Sp1包含顶点的个数?’②P1为连通图且不存在于V ;3)依次遍历Q中所有的模式,直到Q为空,选取符合如下条件的查询模式作为输出结果:①输出模式需要包含所有的关键词;②叶子顶点均包含至少一个关键词;③输出模式包含的顶点数应小于预定的最大值Sniax;4)根据查询模式拼接结构化查询语言(SQL)语句,对每个候选查询模式均拼接SQL查询语句,通过用户关键词查询所述索引表,得到表名和列名信息写入SQL语句,使用SQL进行数据库查询并返回查询结果。优选地,所述金融数据检索系统包括业务服务器、应用服务器、数据服务器、整合服务器及各数据库;其中,业务服务器通过调用应用服务器进行信息检索,使用数据信息进行推送服务;应用服务器对数据进行统一的索引与维护;整合服务器对结构化、非结构化数据进行整合,采用查重机制及数据推送技术实现数据的分类汇总和规整,并通过协议接口和前端页面展示为用户及业务服务器提供信息服务;整合服务器整合分散在各数据库系统、文件系统以及互联网的金融数据,对数据进行采集和清洗,并通过基于业务主体域的数据整合策略将不同来源主体的数据整合形成数据服务器;数据整合服务的主要过程包括:首先将查询请求以XMLSchema形式传递到数据抽取模块,数据抽取模块将XML转换成SQL查询语句,然后根据查询结果进行数据抽取,最后把抽取出来的结果集转换成XML的格式传递给集成处理模块,非结构化数据也需转化成XML格式,再由集成处理模块对XML文档做集成处理并最终生成统一的数据服务器;利用基于段落主题的文本查重机制,使用文本数据的主题信息来比较其相似度,实现对于相同主题和雷同内容的金融数据的归类,由文本中的每个段落产生一个特征值,将一个文本表达为基于段落主题的特征值集合;通过比较两个文本的段落特征值来计算两个文本的相似度,最后相似度超过设定阈值时则认为是重复文本,进行查重操作;该数据查重框架的整体结构包括:查重组件、查重配置管理、查重结果分析三部分;其中,查重组件通过语义解析引擎用于对数据内容进行分词处理,特征值生成器根据分词结果生成数据的特征值特征,将64位的特征值按相同规则被均分4组进行索引存储;在特征值比对过程中,首先进行数据计算的降维,并计算数据特征值特征与特征值库的数据特征值海明距离大于或等于3的比对结果;查重配置管理用于对数据查重的结果进行日志记录,并检查数据查重的结果;此外,检索系统中的数据推送系统采用基于用户行为聚类的推送算法来实现个性化的数据推送服务;通过建立用户和数据之间相互对应的二元关系,利用用户行为的相似性关系来挖掘每个用户潜在感兴趣的对象,进而进行个性化的推送;数据推送系统由用户信息的行为日志记录模块、用户偏好的模型分析模块和推送算法模块三部分组成;其中行为日志记录模块用于在各业务接触点记录用户的各种行为信息,包括页面的停留时间、点击序列、内容浏览记录以及用户的个人信息和交易历史(来源于集中交易系统)、行情浏览历史(来源行情系统);用户偏好的模型分析模块用于对用户行为日志的分析,对用户多角度的属性加以测算和评分,为每一个用户建立各自的多属性描述,并运用业务知识和数据挖掘工具对用户的众多属性评分进行聚类,将具有相似行为模式的用户聚集在一起;推送算法模块则是利用组合算法从数据服务器中根据分类分级用户模型为用户实时计算出各数据的客户兴趣度,并返回其中给业务前台进行集中展示。本专利技术相比现有技术,具有以下优点:本专利技术提出了一种云平台金融数据获取方法,克服了当前第1页1 2 3 4 本文档来自技高网...

【技术保护点】
一种云平台数据获取方法,用于在基于云计算的金融数据检索系统中进行数据检索和查询,其特征在于,包括:将分布式环境下的多个查询方法进行集成,将非结构化查询和结构化数据查询均作为执行单元,为用户提供统一的查询界面;将用户的查询请求转换成多个成员查询方法所能识别的格式,最终将查询结果以一定的格式返回给用户。

【技术特征摘要】

【专利技术属性】
技术研发人员:张鹏
申请(专利权)人:成都布林特信息技术有限公司
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1