一种数据整合方法、装置、存储介质和服务器制造方法及图纸

技术编号:21913907 阅读:28 留言:0更新日期:2019-08-21 12:24
本发明专利技术提供了一种数据整合方法、装置、存储介质和服务器,包括:获取指定信息源的公开数据;根据所述公开数据的结构特征,选择与所述结构特征对应的预处理方式对所述公开数据进行预处理,得到目标数据;根据预设业务逻辑,将所述目标数据与数据仓库已存储的自有数据进行整合,生成案例数据。本发明专利技术有效整合不同数据源的数据,将资本市场各类离散的数据整合,方便企业用户或者个人用户有效查询,从海量数据中快速有效的获取需要的数据。

A Data Integration Method, Device, Storage Media and Server

【技术实现步骤摘要】
一种数据整合方法、装置、存储介质和服务器
本专利技术涉及数据处理
,尤其涉及一种数据整合方法、装置、存储介质和服务器。
技术介绍
随着国民经济的持续稳定发展,资本市场也快速发展。互联网的发展和普及,各种信息数据呈现了爆炸式增加。资本市场每日产生了大量的包括资本市场相关的法规、财务数据等业务数据,各种业务数据比较离散,企业或者个人无法有效查询相关数据,从而不能有效追踪资本事件、进行聚类统计等。如何从海量的数据中快速获取所需要的数据,成为用户普遍关注的焦点。
技术实现思路
本专利技术实施例提供了一种数据整合方法、装置、存储介质和服务器,以解决现有技术中,由于资本市场每日产生了大量的包括资本市场相关的法规、财务数据等业务数据,各种业务数据比较离散,企业或者个人无法有效查询相关数据的问题。本专利技术实施例的第一方面提供了一种数据整合方法,包括:获取指定信息源的公开数据;根据所述公开数据的结构特征,选择与所述结构特征对应的预处理方式对所述公开数据进行预处理,得到目标数据;根据预设业务逻辑,将所述目标数据与数据仓库已存储的自有数据进行整合,生成案例数据。本专利技术实施例的第二方面提供了一种数据整合装置,包括:公开数据获取单元,用于获取指定信息源的公开数据;目标时候获取单元,用于根据所述公开数据的结构特征,选择与所述结构特征对应的预处理方式对所述公开数据进行预处理,得到目标数据;数据融合单元,用于根据预设业务逻辑,将所述目标数据与数据仓库已存储的自有数据进行整合,生成案例数据。本专利技术实施例的第三方面提供了一种服务器,包括存储器以及处理器,所述存储器存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如下步骤:获取指定信息源的公开数据;根据所述公开数据的结构特征,选择与所述结构特征对应的预处理方式对所述公开数据进行预处理,得到目标数据;根据预设业务逻辑,将所述目标数据与数据仓库已存储的自有数据进行整合,生成案例数据。本专利技术实施例的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如下步骤:获取指定信息源的公开数据;根据所述公开数据的结构特征,选择与所述结构特征对应的预处理方式对所述公开数据进行预处理,得到目标数据;根据预设业务逻辑,将所述目标数据与数据仓库已存储的自有数据进行整合,生成案例数据。本专利技术实施例中,通过获取指定信息源的公开数据,根据所述公开数据的结构特征,选择与所述结构特征对应的预处理方式对所述公开数据进行预处理,得到目标数据,然后根据预设业务逻辑,将所述目标数据与数据仓库已存储的自有数据进行整合,生成案例数据,有效整合不同数据源的数据,将资本市场各类离散的数据进行整合,方便企业用户或者个人用户有效查询,从海量数据中快速有效的获取需要的数据,从而使得企业用户或者个人用户对资本事件进行有效追踪,查询各业务数据,对查询的各业务数据进行聚类统计分析,增强用户体验。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术实施例提供的数据整合方法的实现流程图;图2是本专利技术实施例提供的数据整合方法S103的具体实现流程图;图3是本专利技术另一实施例提供的数据整合方法的实现流程图;图4是本专利技术实施例提供的数据整合方法的应用示意流程图;图5是本专利技术实施例提供的数据整合装置的结构框图;图6是本专利技术实施例提供的服务器的示意图。具体实施方式为使得本专利技术的专利技术目的、特征、优点能够更加的明显和易懂,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本专利技术一部分实施例,而非全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本专利技术保护的范围。图1示出了本专利技术实施例提供的数据整合方法的实现流程,该方法流程包括步骤S101至S103。各步骤的具体实现原理如下:S101:获取指定信息源的公开数据。在本专利技术实施例中,所述公开数据是指可获取的、面向大众的数据,所述信息源包括业务服务器收集的公开数据,以及信息平台上的公开数据。具体地,所述公开数据包括结构化数据和非结构化数据,上述S101具体包括:A1:连接业务服务器,定时获取所述业务服务器收集的结构化数据。具体地,业务员收集市场上公开的结构化数据并上传至对应的业务服务器,通过连接所述业务服务器,定时获取所述业务服务器收集的结构化数据。结构化数据也称作行数据,是由二维表结构来逻辑表达和实现的数据,严格地遵循数据格式与长度规范,主要通过关系型数据库进行存储和管理。A2:监控指定的信息平台,在所述指定的信息平台上爬取非结构化数据。具体地,非结构化数据是数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。非结构化数据包括所有格式的办公文档、文本、图片、XML,HTML、各类报表、图像和音频/视频信息等等。在本专利技术实施例中,通过对指定的信息平台进行信息监控,设置网络爬虫爬取所述指定平台上发布的文本信息,即获取非结构化数据,所述指定的信息平台包括但不限于网络平台(如金融论坛、股市论坛、技术论坛、监管机构网站、各金融协会等金融性专业网站)以及即时通讯平台的社群(如QQ、微信),例如,对于微博、指定的监管机构网站、各金融协会等金融性专业网站、股市论坛等信息平台,通过设置网络爬虫,自动抓取信息平台上海量的非结构化数据。S102:根据所述公开数据的结构特征,选择与所述结构特征对应的预处理方式对所述公开数据进行预处理,得到目标数据。在本专利技术实施例中,预先根据结构特征,设置与结构特征对应的一系列处理操作,针对不同结构特征的公开数据,进行不同的预处理,以得到目标数据。所述公开数据的结构特征包括结构化和非结构化。可选地,作为本专利技术的一个实施例,若所述公开数据的结构特征为结构化,上述S102具体包括:B1:若所述公开数据为结构化数据,则将所述结构化数据进行数据清洗。具体地,将所述结构化数据,进行数据筛选,判断所述结构化数据是否存在字段缺失,若存在字段缺失,则根据预设字段处理方式,填充缺失字段或者删除缺失字段。对于优化筛选后的结构化数据,验证所述结构化数据的正确性并对重复的结构化数据进行去重处理。进一步地,分析优化后的结构化数据中是否存在异类数据,若存在异类数据,则对存在的异类数据进行修改或者删除。B2:按预定义挖掘算法对清洗后的所述结构化数据进行挖掘,得到目标数据。具体地,获取用户需求,根据所述用户需求对应的预定义挖掘算法对清洗后的所述结构化数据进行挖掘。在本专利技术实施例中,对市场数据进行追踪,由于获取的结构化数据的数据量大,并且带有随机性,获取的结构化数据存在噪声污染,数据质量不高,通过对获取的结构化数据进行数据清洗,去除噪声,得到优化后的结构化数据,从而提高数据挖掘的效率,在通过挖掘的方式从市场公开的结构化数据中得到目标数据,从而将看似海量的杂乱无章的结构性数据得以合理的利用,提高了数据利本文档来自技高网...

【技术保护点】
1.一种数据整合方法,其特征在于,所述数据整合方法包括:获取指定信息源的公开数据;根据所述公开数据的结构特征,选择与所述结构特征对应的预处理方式对所述公开数据进行预处理,得到目标数据;根据预设业务逻辑,将所述目标数据与数据仓库已存储的自有数据进行整合,生成案例数据。

【技术特征摘要】
1.一种数据整合方法,其特征在于,所述数据整合方法包括:获取指定信息源的公开数据;根据所述公开数据的结构特征,选择与所述结构特征对应的预处理方式对所述公开数据进行预处理,得到目标数据;根据预设业务逻辑,将所述目标数据与数据仓库已存储的自有数据进行整合,生成案例数据。2.根据权利要求1所述的数据整合方法,其特征在于,所述公开数据包括结构化数据和非结构化数据,所述获取指定信息源的公开数据的步骤,包括:连接业务服务器,定时获取所述业务服务器收集的结构化数据;监控指定的信息平台,在所述指定的信息平台上爬取非结构化数据。3.根据权利要求1所述的数据整合方法,其特征在于,所述根据所述公开数据的结构特征,选择与所述结构特征对应的预处理方式对所述公开数据进行预处理,得到目标数据的步骤,包括:若所述公开数据为结构化数据,则将所述结构化数据进行数据清洗;按预定义挖掘算法对清洗后的所述结构化数据进行挖掘,得到目标数据。4.根据权利要求1所述的数据整合方法,其特征在于,所述根据所述公开数据的结构特征,选择与所述结构特征对应的预处理方式对所述公开数据进行预处理,得到目标数据的步骤,包括:若所述公开数据为非结构化数据,则根据预定义数据模型,将所述非结构化数据转换为半结构化数据;对所述半结构化数据进行命名实体识别;基于识别的命名实体,提取目标数据。5.根据权利要求1所述的数据整合方法,其特征在于,所述根据预设业务逻辑,将所述目标数据与数据仓库已存储的自有数据进行整合,生成案例数据步骤,包括:判断所述目标数据与自有数据是否存在关联;若所述目标数据与...

【专利技术属性】
技术研发人员:苏梅薛辉
申请(专利权)人:深圳价值在线信息科技股份有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1