一种数据解析方法及相关设备技术

技术编号:38729059 阅读:11 留言:0更新日期:2023-09-08 23:19
本说明书提供了一种数据解析方法和相关设备,应用于云服务平台,所述云服务平台与多个数据源分别对接。该方法包括:获取所述多个数据源中的任一目标数据源对应的样本数据集合;分析所述样本数据集合中的样本数据的数据结构,并基于分析结果生成与所述目标数据源对应的数据解析规则;所述数据解析规则用于指示所述目标数据源中的各个数据的数据结构;基于所述数据解析规则,对所述目标数据源中的待解析的目标数据进行数据结构解析。析的目标数据进行数据结构解析。析的目标数据进行数据结构解析。

【技术实现步骤摘要】
一种数据解析方法及相关设备


[0001]本说明书一个或多个实施例涉及数据处理
,尤其涉及一种数据解析方法及相关设备。

技术介绍

[0002]云服务平台可以对接云外的多个数据源,并对该多个数据源的数据进行统一的数据管理。但是,各个数据源的数据格式往往不同,没有统一的标准,这就导致云服务平台在接入这些数据源的数据时无法对其进行准确、有效的数据管理。
[0003]因此,云服务平台在接入各个数据源的数据时,经常需要针对各个数据源的数据,手动配置相应的数据解析规则,以使云服务平台能够基于这些手动配置的数据解析规则对各个数据源的数据进行解析,从而获得结构化的标准数据以便进行后续管理。但是,通过手动配置大量的数据解析规则非常耗时耗力且容易出错,极大程度上降低了云服务平台的数据接入效率和数据管理效率。

技术实现思路

[0004]有鉴于此,本说明书一个或多个实施例提供一种数据解析方法及相关设备。
[0005]第一方面,本说明书提供了一种数据解析方法,应用于云服务平台,所述云服务平台与多个数据源分别对接;所述方法包括:
[0006]获取所述多个数据源中的任一目标数据源对应的样本数据集合;
[0007]分析所述样本数据集合中的样本数据的数据结构,并基于分析结果生成与所述目标数据源对应的数据解析规则;所述数据解析规则用于指示所述目标数据源中的各个数据的数据结构;
[0008]基于所述数据解析规则,对所述目标数据源中的待解析的目标数据进行数据结构解析。
[0009]第二方面,本说明书提供了一种数据解析装置,应用于云服务平台,所述云服务平台与多个数据源分别对接;所述装置包括:
[0010]获取单元,用于获取所述多个数据源中的任一目标数据源对应的样本数据集合;
[0011]第一解析规则生成单元,用于分析所述样本数据集合中的样本数据的数据结构,并基于分析结果生成与所述目标数据源对应的数据解析规则;所述数据解析规则用于指示所述目标数据源中的各个数据的数据结构;
[0012]解析单元,用于基于所述数据解析规则,对所述目标数据源中的待解析的目标数据进行数据结构解析。
[0013]相应地,本说明书还提供了一种服务器,应用于云服务平台,所述服务器包括存储器和处理器;所述存储器上存储有可由所述处理器运行的计算机程序;所述处理器运行所述计算机程序时,执行如上述各实施方式所述的数据解析方法。
[0014]相应地,本说明书还提供了一种计算机可读存储介质,其上存储有计算机程序,所
述计算机程序被处理器运行时,执行如上述各实施方式所述的数据解析方法。
[0015]综上所述,本申请中的云服务平台可以先获取各个数据源中的样本数据,然后分析各个数据源中的样本数据的数据结构,并基于分析结果自动生成与各个数据源中的数据所对应的数据解析规则。进一步地,云服务平台可以基于自动生成的数据解析规则,快速、准确的对各个数据源中待解析的数据进行数据结构解析,以便后续云服务平台可以基于得到的解析结果,对各个数据源中的数据进行准确、可靠的数据管理。如此,本申请可以通过对数据源中的样本数据的分析,自动生成相应的数据解析规则,进而大大提升了云服务平台的数据解析效率和数据管理效率,进一步提升了云服务平台的服务质量,满足客户的实际需求。
附图说明
[0016]图1是一示例性实施例提供的一种系统架构示意图;
[0017]图2是一示例性实施例提供的一种数据解析方法的流程示意图;
[0018]图3是一示例性实施例提供的一种数据解析装置的结构示意图;
[0019]图4是一示例性实施例提供的一种服务器的结构示意图。
具体实施方式
[0020]这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书一个或多个实施例相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本说明书一个或多个实施例的一些方面相一致的装置和方法的例子。
[0021]需要说明的是:在其他实施例中并不一定按照本说明书示出和描述的顺序来执行相应方法的步骤。在一些其他实施例中,其方法所包括的步骤可以比本说明书所描述的更多或更少。此外,本说明书中所描述的单个步骤,在其他实施例中可能被分解为多个步骤进行描述;而本说明书中所描述的多个步骤,在其他实施例中也可能被合并为单个步骤进行描述。
[0022]本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准,并提供有相应的操作入口,供用户选择授权或者拒绝。
[0023]首先,对本说明书中的部分用语进行解释说明,以便于本邻域技术人员理解。
[0024](1)结构化数据,也被成为定量数据,是能够用数据或统一的结构加以表示的信息。一条数据如果能清晰地知道里面都有哪些信息列和信息值,那么这条数据就是结构化数据,比如xml格式,json格式的数据就是结构化数据。保存和管理结构化数据的一般为关系型数据库,可以使用结构化查询语言或SQL语言对数据库中保存的结构化数据进行查询。
[0025]相应的,非结构化数据本质上是结构化数据之外的一切数据,不符合任何预定义的模型。非结构化数据可能是文本的或非文本的,例如一个存有多种信息内容的普通字符串文本,系统无法自动理解其含义,就是非结构化数据。保存和管理非结构化数据的一般为
非关系型数据库中,可以使用NoSQL语言对数据库中保存的非结构化数据进行查询。
[0026](2)标准化数据,是对每个信息都具有统一且规范的标准描述的数据。如果多个不同的数据对于同一个信息(例如来源ip、目标ip等)的字段名称和字段类型是相同的,那这些数据就是标准化数据,否则,就是非标准化数据。
[0027]在混合云场景中,客户会采购并使用多个厂商的产品,并且客户希望有统一的平台(例如云服务平台)来整合多个厂商的数据进行统一且安全的数据管理。示例性的,这些产品可以是各个厂商的网络安全产品,比如防火墙产品,等等,本说明书对此不做具体限定。
[0028]在一示出的实施方式中,云服务平台能够对接多个厂商的数据源,并分别接入多个数据源中的数据进行统一的数据管理。然而,由于各个厂商的数据源的数据格式往往不同,并且同一厂商中与不同产品相关的数据的数据格式也会不同,甚至同一产品的不同版本所对应的数据格式也会不同,又或者与同一产品相关的不同种类的数据(例如事件日志,流量日志,域名日志等)的数据格式都不统一,等等。这就导致云服务平台在接入各个数据源的数据时往往不知道该如何解析数据,也无法准确获知数据中的实际信息,使得云服务平台很难对各个数据源的数据进行有效、可靠的数据管理。
...

【技术保护点】

【技术特征摘要】
1.一种数据解析方法,应用于云服务平台,所述云服务平台与多个数据源分别对接;所述方法包括:获取所述多个数据源中的任一目标数据源对应的样本数据集合;分析所述样本数据集合中的样本数据的数据结构,并基于分析结果生成与所述目标数据源对应的数据解析规则;所述数据解析规则用于指示所述目标数据源中的各个数据的数据结构;基于所述数据解析规则,对所述目标数据源中的待解析的目标数据进行数据结构解析。2.根据权利要求1所述的方法,所述数据解析规则包含用于指示数据中的字段分隔符和Key

Value键值分隔符的第一类解析规则;其中,所述字段分隔符用于分隔数据中相邻的两个字段,所述键值分隔符用于分隔数据中的每个字段的字段名称和字段值,所述字段名称作为字段的key,所述字段值作为与字段的key对应的value;所述分析样本数据集合中的样本数据的数据结构,并基于分析结果生成与所述目标数据源对应的数据解析规则,包括:统计所述样本数据集合中的样本数据包含的多种分隔符在每个样本数据中的数量;基于统计出的所述数量,在所述多种分隔符中确定出所述样本数据集合的字段分隔符和键值分隔符;基于所述样本数据集合的字段分隔符和键值分隔符生成所述第一类解析规则。3.根据权利要求2所述的方法,所述基于统计出的所述数量,在所述多种分隔符中确定出所述样本数据集合的字段分隔符和键值分隔符,包括:将在每个样本数据中数量最多的分隔符确定为所述样本数据集合的键值分隔符;将在每个样本数据中数量比所述键值分隔符少一个的分隔符确定为所述样本数据集合的字段分隔符。4.根据权利要求3所述的方法,所述将在每个样本数据中数量最多的分隔符确定为所述样本数据集合的键值分隔符,包括:将在每个样本数据中数量最多,且在不同样本数据之间数量的差异最小的分隔符确定为所述样本数据集合的键值分隔符;所述将在每个样本数据中数量比所述键值分隔符少一个的分隔符确定为所述样本数据集合的字段分隔符,包括:将在每个样本数据中数量比所述键值分隔符少一个,且在不同样本数据之间数量的差异最小的分隔符确定为所述样本数据集合的字段分隔符。5.根据权利要求4所述的方法,所述将在每个样本数据中数量最多,且在不同样本数据之间数量的差异最小的分隔符确定为所述样本数据集合的键值分隔符,包括:计算每种分隔符在不同样本数据之间的数量方差;将在每个样本数据中数量最多,且在不同样本数据之间的数量方差最小的分隔符确定为所述样本数据集合的键值分隔符;所述将在每个样本数据中数量比所述键...

【专利技术属性】
技术研发人员:张良
申请(专利权)人:阿里云计算有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1