数据处理系统及方法技术方案

技术编号:26531109 阅读:10 留言:0更新日期:2020-12-01 14:11
本发明专利技术涉及一种数据处理系统,包括:数据消息队列系统,配置为定义第一主题和第二主题,第一主题与结构化数据关联,第二主题与非结构化数据关联,数据消息队列系统配置为按照第一主题和第二主题将输入数据分为第一数据队列和第二数据队列;第一数据采集引擎,配置为从第一数据队列中获取结构化数据;第二数据采集引擎,配置为从第二数据队列中获取非结构化数据;第一数据平台,配置为存储并处理第一数据采集引擎的结构化数据;以及第二数据平台,配置为存储并处理第二数据采集引擎的非结构化数据。

【技术实现步骤摘要】
数据处理系统及方法
本专利技术涉及大数据领域,尤其涉及一种数据处理系统、方法、监控装置及计算机可读介质。
技术介绍
随着互联网技术的发展,越来越多的信息已经无法通过常规的方式进行获取、存储和处理,而是需要借助于云计算(CloudComputing)和大数据(bigdata)技术。大数据是指一定时间范围内规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。为了在一定时间内能够有效地处理大量数据,需要使用特殊的大数据处理技术。目前,适用于大数据的技术主要包括:大规模并行处理(MPP)数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统等。
技术实现思路
本专利技术所要解决的技术问题是提供一种数据处理系统、方法、监控装置及计算机可读介质。本专利技术为解决上述技术问题而采用的技术方案是提供一种数据处理系统,包括:数据消息队列系统,配置为定义第一主题和第二主题,所述第一主题与结构化数据关联,所述第二主题与非结构化数据关联,所述数据消息队列系统配置为按照所述第一主题和第二主题将输入数据分为第一数据队列和第二数据队列;第一数据采集引擎,配置为从所述第一数据队列中获取结构化数据;第二数据采集引擎,配置为从所述第二数据队列中获取非结构化数据;第一数据平台,配置为存储并处理所述第一数据采集引擎的结构化数据;以及第二数据平台,配置为存储并处理所述第二数据采集引擎的非结构化数据。在本专利技术的一实施例中,还包括:过滤模块,配置为过滤数据并输入至所述数据消息队列系统。在本专利技术的一实施例中,所述第一数据平台配置为对所述结构化数据进行聚合统计,获得统计数据;在所述第二数据平台配置为按照预设函数和/或算法从所述非结构化数据中提取有效数据。在本专利技术的一实施例中,所述第一数据平台包括相互分离的存储模块和处理模块。在本专利技术的一实施例中,还包括交互接口,连接所述第一数据平台和所述第二数据平台,所述交互接口配置为:根据所述第一数据平台的请求从所述第二数据平台中获取所述有效数据;和/或根据所述第二数据平台的请求从所述第一数据平台中获取统计数据。在本专利技术的一实施例中,还包括:在所述第一数据平台利用关联的有效数据和统计数据进行交叉验证;和/或在所述第二数据平台利用关联的有效数据和统计数据进行交叉验证。本专利技术的另一方面提供一种数据处理方法,包括以下步骤:定义第一主题和第二主题,所述第一主题与结构化数据关联,所述第二主题与非结构化数据关联;按照所述第一主题和第二主题将输入数据分为第一数据队列和第二数据队列;从所述第一数据队列中获取结构化数据到第一数据平台;从所述第二数据队列中获取非结构化数据到第二数据平台;在所述第一数据平台存储并处理所述结构化数据;以及在所述第二数据平台存储并处理所述非结构化数据。在本专利技术的一实施例中,还包括:在所述第一数据平台对所述结构化数据进行聚合统计,获得统计数据;在所述第二数据平台按照预设函数和/或算法从所述非结构化数据中提取有效数据;在所述第一数据平台通过交互接口从所述第二数据平台中获取所述有效数据;以及在所述第一数据平台利用关联的有效数据和统计数据进行交叉验证。本专利技术的另一方面提供一种监控装置,包括:存储器,用于存储可由处理器执行的指令;处理器,用于执行所述指令以实现如下的方法:定义第一主题和第二主题,所述第一主题与结构化数据关联,所述第二主题与非结构化数据关联;按照所述第一主题和第二主题将输入数据分为第一数据队列和第二数据队列;从所述第一数据队列中获取结构化数据到第一数据平台;从所述第二数据队列中获取非结构化数据到第二数据平台;在所述第一数据平台存储并处理所述结构化数据;以及在所述第二数据平台存储并处理所述非结构化数据。本专利技术的另一方面提供一种存储有计算机程序代码的计算机可读介质,所述计算机程序代码在由处理器执行时实现如下方法:定义第一主题和第二主题,所述第一主题与结构化数据关联,所述第二主题与非结构化数据关联;按照所述第一主题和第二主题将输入数据分为第一数据队列和第二数据队列;从所述第一数据队列中获取结构化数据到第一数据平台;从所述第二数据队列中获取非结构化数据到第二数据平台;在所述第一数据平台存储并处理所述结构化数据;以及在所述第二数据平台存储并处理所述非结构化数据。本专利技术由于采用以上技术方案,使之与现有技术相比,具有如下显著优点:本专利技术的数据处理系统可以有效地处理包含结构化数据和非结构化数据的混合数据,包括对这些数据的存储、计算以及数据之间的交叉验证。附图说明为让本专利技术的上述目的、特征和优点能更明显易懂,以下结合附图对本专利技术的具体实施方式作详细说明,其中:图1是本专利技术一实施例的一种数据处理系统的结构示意图;图2是本专利技术一实施例的一种数据处理系统的数据流的示意图;图3是本专利技术一实施例的一种数据处理系统的数据处理过程的示意图;图4是本专利技术一实施例的一种数据处理系统的结构化数据和非结构化数据的示意图;图5是本专利技术一实施例的一种数据处理方法的流程图;图6是本专利技术一实施例的一种监控装置的结构示意图。图中元件标号说明:110:数据消息队列系统121:第一数据采集引擎122:第二数据采集引擎131:第一数据平台132:第二数据平台140:过滤模块150:交互接口210:输入数据211:第一数据队列212:第二数据队列221:结构化数据222:非结构化数据231:统计数据232:有效数据501~506:步骤610:存储器620:处理器630:通信接口640:输入/输出设备具体实施方式为让本专利技术的上述目的、特征和优点能更明显易懂,以下结合附图对本专利技术的具体实施方式作详细说明。在下面的描述中阐述了很多具体细节以便于充分理解本专利技术,但是本专利技术还可以采用其它不同于在此描述的其它方式来实施,因此本专利技术不受下面公开的具体实施例的限制。如本申请和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其他的步骤或元素。在详述本专利技术实施例时,为便于说明,表示器件结构的剖面图会不依一般比例作局部放大,而且所述示意图只是示例,其在此不应限制本专利技术保护的范围。此外,在实际制作中应包含长度、宽度及深度的三维空间尺寸。为了方便描述,此处可能使用诸如“之下”、“下方”、“低于”、“下面”、“上方”、“上”等等的空间关系词语来描述附图中所示的一个元件或特征与其他元件或特征的关系。将理解到,这些空间关系本文档来自技高网...

【技术保护点】
1.一种数据处理系统,包括:/n数据消息队列系统,配置为定义第一主题和第二主题,所述第一主题与结构化数据关联,所述第二主题与非结构化数据关联,所述数据消息队列系统配置为按照所述第一主题和第二主题将输入数据分为第一数据队列和第二数据队列;/n第一数据采集引擎,配置为从所述第一数据队列中获取结构化数据;/n第二数据采集引擎,配置为从所述第二数据队列中获取非结构化数据;/n第一数据平台,配置为存储并处理所述第一数据采集引擎的结构化数据;以及/n第二数据平台,配置为存储并处理所述第二数据采集引擎的非结构化数据。/n

【技术特征摘要】
1.一种数据处理系统,包括:
数据消息队列系统,配置为定义第一主题和第二主题,所述第一主题与结构化数据关联,所述第二主题与非结构化数据关联,所述数据消息队列系统配置为按照所述第一主题和第二主题将输入数据分为第一数据队列和第二数据队列;
第一数据采集引擎,配置为从所述第一数据队列中获取结构化数据;
第二数据采集引擎,配置为从所述第二数据队列中获取非结构化数据;
第一数据平台,配置为存储并处理所述第一数据采集引擎的结构化数据;以及
第二数据平台,配置为存储并处理所述第二数据采集引擎的非结构化数据。


2.如权利要求1所述的数据处理系统,其特征在于,还包括:
过滤模块,配置为过滤数据并输入至所述数据消息队列系统。


3.如权利要求1所述的数据处理系统,其特征在于,
所述第一数据平台配置为对所述结构化数据进行聚合统计,获得统计数据;
所述第二数据平台配置为按照预设函数和/或算法从所述非结构化数据中提取有效数据。


4.如权利要求1所述的数据处理系统,其特征在于,所述第一数据平台包括相互分离的存储模块和处理模块。


5.如权利要求3所述的数据处理系统,其特征在于,还包括交互接口,连接所述第一数据平台和所述第二数据平台,所述交互接口配置为:
根据所述第一数据平台的请求从所述第二数据平台中获取所述有效数据;和/或
根据所述第二数据平台的请求从所述第一数据平台中获取统计数据。


6.如权利要求4所述的数据处理系统,其特征在于,还包括:
在所述第一数据平台利用关联的有效数据和统计数据进行交叉验证;和/或
在所述第二数据平台利用关联的有效数据和统计数据进行交叉验证。


7.一种数据处理方法,包括以下步骤:
定义第一主题和第二主题,所述第一主题与结构化数据关联,所述第二主题与非结构化数据关联;
按照所述第一...

【专利技术属性】
技术研发人员:王红卫
申请(专利权)人:食亨上海科技服务有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1