数据处理方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:26762529 阅读:15 留言:0更新日期:2020-12-18 23:12
本申请涉及一种数据处理方法,其中,该数据处理方法包括:获取来自多个数据源的多组原始数据;分别对每组所述原始数据进行格式统一,得到多组格式统一数据;将多组所述格式统一数据输入大数据模型,得到相应数据格式的威胁情报;将所述威胁情报发送处理相应数据格式的数据平台,解决了logstash开源数据收集引擎采用基于ruby的配置语法,排查威胁情况难度大的问题,实现了通过大数据模型快速收集处理数据并排查威胁情况。

【技术实现步骤摘要】
数据处理方法、装置、计算机设备和存储介质
本申请涉及数据处理引擎领域,特别是涉及数据处理方法、装置、计算机设备和存储介质。
技术介绍
由于涉及的系统种类繁多,并且每个系统都有自己的开发工具和编程语言,因此,当数据在多个系统之间传输时,不可避免的会增加开发和运维成本,同时,也难以保证数据的一致性。在大多数企业中,超过一半的开发时间都花在了系统间的数据传输上。因此,常用数据处理引擎对多种格式的数据进行数据处理。EDR日志由于其庞大的日志数量,无法被常规的数据处理引擎快速收集处理,常见的logstash开源数据收集引擎可以采集来自不同数据源的数据,并对数据进行处理后输出到多种输出源。然而logstash开源数据收集引擎采用基于ruby(一种面向对象程序设计的脚本语言)的配置语法,排查威胁情况难度较大。
技术实现思路
本申请实施例提供了一种数据处理方法、装置、计算机设备和存储介质,以至少解决相关技术中logstash开源数据收集引擎采用基于ruby的配置语法,排查问题难度较大的问题。第一方面,本申请实施例提供了一种数据处理方法,包括:获取来自多个数据源的多组原始数据;分别对每组所述原始数据进行格式统一,得到多组格式统一数据;将多组所述格式统一数据输入大数据模型,得到相应数据格式的威胁情报;将所述威胁情报发送处理相应数据格式的数据平台。在其中一个实施例中,所述获取来自多个数据源的多组原始数据包括:通过多个可分布式部署的数据输入流器获取多个数据源的原始数据;所述原始数据包括主动防御格式日志、采集器日志、EDR格式日志以及用户自定义格式日志中的一种或多种。在其中一个实施例中,所述分别对每组所述原始数据进行格式统一,得到多组格式统一数据包括:将每组所述原始数据分别存入不同队列;对每一队列中的原始数据进行预处理,得到预处理数据;所述预处理包括删除、填充以及整合中的至少一种;对每一队列中的预处理数据进行格式统一,得到多组格式统一数据。在其中一个实施例中,所述分别对每组所述原始数据进行格式统一,得到多组格式统一数据之后包括:将多组所述格式统一数据发送至存储单元;若接收到存储单元的备份完成信号,则完成备份;所述备份完成信号为存储单元接收到完整的多组所述格式统一数据之后反馈的信号;若未接收到存储单元的备份完成信号,则再次将多组所述格式统一数据发送至存储单元,直至完成备份。在其中一个实施例中,所述将多组所述格式统一数据输入大数据模型,得到相应数据格式的威胁情报之前包括:获取多组所述格式统一数据中的误报数据和字段丢失数据;将多组所述格式统一数据中的误报数据和字段丢失数据进行删除,得到二次处理数据。在其中一个实施例中,所述将多组所述格式统一数据输入大数据模型,得到相应数据格式的威胁情报包括:将多组所述格式统一数据和/或二次处理数据输入所述大数据模型;所述大数据模型根据预设算法得到威胁情报;所述预设算法包括分类算法、关联算法以及聚合算法中至少一种。在其中一个实施例中,所述将所述威胁情报发送处理相应数据格式的数据平台之后包括:删除存储单元内的备份数据。第二方面,本申请实施例提供了一种数据处理装置,包括:采集模块:用于获取来自多个数据源的多组原始数据;预处理模块:用于分别对每组所述原始数据进行格式统一,得到多组格式统一数据;解析模块:用于将多组所述格式统一数据输入大数据模型,得到相应数据格式的威胁情报;输出模块:用于将所述威胁情报发送处理相应数据格式的数据平台。第三方面,本申请实施例提供了一种计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述的数据处理方法。第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第一方面所述的数据处理方法。相比于相关技术,本申请实施例提供的数据处理方法,通过获取来自多个数据源的多组原始数据;分别对每组所述原始数据进行格式统一,得到多组格式统一数据;将多组所述格式统一数据输入大数据模型,得到相应数据格式的威胁情报;将所述威胁情报发送处理相应数据格式的数据平台,解决了logstash开源数据收集引擎采用基于ruby的配置语法,排查威胁情况难度大的问题,实现了通过大数据模型快速收集处理数据并排查威胁情况。本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请的其他特征、目的和优点更加简明易懂。附图说明此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:图1是根据本申请实施例的数据处理方法流程图;图2是根据本申请优选实施例的数据处理方法示意图;图3是根据本申请实施例的数据处理装置示意图;图4是根据本申请实施例的计算机设备的硬件结构示意图。具体实施方式为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本申请提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。显而易见地,下面描述中的附图仅仅是本申请的一些示例或实施例,对于本领域的普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图将本申请应用于其他类似情景。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开的内容相关的本领域的普通技术人员而言,在本申请揭露的
技术实现思路
的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请公开的内容不充分。在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是,本申请所描述的实施例在不冲突的情况下,可以与其它实施例相结合。除非另作定义,本申请所涉及的技术术语或者科学术语应当为本申请所属
内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电气的连接,不管是直接的还是间接的。本申请本文档来自技高网
...

【技术保护点】
1.一种数据处理方法,其特征在于,包括:/n获取来自多个数据源的多组原始数据;/n分别对每组所述原始数据进行格式统一,得到多组格式统一数据;/n将多组所述格式统一数据输入大数据模型,得到相应数据格式的威胁情报;/n将所述威胁情报发送处理相应数据格式的数据平台。/n

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:
获取来自多个数据源的多组原始数据;
分别对每组所述原始数据进行格式统一,得到多组格式统一数据;
将多组所述格式统一数据输入大数据模型,得到相应数据格式的威胁情报;
将所述威胁情报发送处理相应数据格式的数据平台。


2.根据权利要求1所述的数据处理方法,其特征在于,所述获取来自多个数据源的多组原始数据包括:
通过多个可分布式部署的数据输入流器获取多个数据源的原始数据;所述原始数据包括主动防御格式日志、采集器日志、EDR格式日志以及用户自定义格式日志中的一种或多种。


3.根据权利要求1-2中任一项所述的数据处理方法,其特征在于,所述分别对每组所述原始数据进行格式统一,得到多组格式统一数据包括:
将每组所述原始数据分别存入不同队列;
对每一队列中的原始数据进行预处理,得到预处理数据;所述预处理包括删除、填充以及整合中的至少一种;
对每一队列中的预处理数据进行格式统一,得到多组格式统一数据。


4.根据权利要求3所述的数据处理方法,其特征在于,所述分别对每组所述原始数据进行格式统一,得到多组格式统一数据之后包括:
将多组所述格式统一数据发送至存储单元;
若接收到存储单元的备份完成信号,则完成备份;所述备份完成信号为存储单元接收到完整的多组所述格式统一数据之后反馈的信号;
若未接收到存储单元的备份完成信号,则再次将多组所述格式统一数据发送至存储单元,直至完成备份。


5.根据权利要求1所述的数据处理方法,其特征在于,所述将多...

【专利技术属性】
技术研发人员:孟希杰姜喜庆
申请(专利权)人:杭州安恒信息安全技术有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1