当前位置: 首页 > 专利查询>度小满科技专利>正文

一种血缘关系的生成方法技术

技术编号:39575243 阅读:7 留言:0更新日期:2023-12-03 19:27
本公开提供一种血缘关系的生成方法

【技术实现步骤摘要】
一种血缘关系的生成方法、装置和系统


[0001]本公开涉及大数据利用
,尤其涉及一种血缘关系的生成方法

装置和系统


技术介绍

[0002]血缘关系可以表征数据的流转过程,通过分析数据之间的血缘关系,有助于用户及时发现数据异常并修复,提高数据的准确性和管理效率

[0003]现有的血缘关系分析过程中,常用的血缘关系提取工具通常依赖于有向图

元数据

关系型语句分析等,展示数据流动的图形界面

或者存储数据的元数据信息

或者析构关系型语句的逻辑以推断血缘关系

[0004]然而,随着数据量的激增和场景多样化,用户标注的人力成本越来越高,而且图形界面绘制耗时增加,响应缓慢导致用户体验感很差;元数据的管理需要投入大量的人力和时间成本,一旦局部故障或者数据丢失,即会导致整个系统管理混乱而崩溃,而且查询耗时过久,同样导致用户满意度较差;关系型语句的分析不仅需要对每个分析引擎进行改造,开发成本过高的同时数据识别的准确度参差不齐,而且面对日志等非结构化

复杂场景的数据,无法构建真实的血缘关系,导致大数据利用率低下

灵活性差


技术实现思路

[0005]有鉴于此,本公开实施例提供一种血缘关系的生成方法

装置和系统,能够解决血缘关系的生成耗时长

用户体验感差;人力和时间成本高,故障或者数据丢失会导致血缘关系的管理混乱而崩溃,查询耗时过久,用户满意度较差;开发成本过高

准确度参差不齐,无法适应非结构化数据的复杂血缘关系场景,导致大数据利用率低下

灵活性差的问题

[0006]为实现上述目的,根据本公开的一方面,提供了一种血缘关系的生成方法,包括:
[0007]所述生成方法包括:
[0008]接收一个或多个文件操作日志;其中,所述文件操作日志包括任务标识

操作动作

操作时间和操作路径;
[0009]按照所述任务标识,对所述文件操作日志进行分组;
[0010]针对每一个所述分组,根据所述操作动作的操作类型对所述文件操作日志中的操作路径进行清洗,将清洗后的文件操作日志依据所述操作时间进行排序,从排序结果中提取清洗后的操作路径中的文件之间的依赖关系;
[0011]利用所述文件之间的依赖关系,生成所述任务标识的血缘关系

[0012]根据本公开的另一方面,提供了一种血缘关系的生成装置,包括:
[0013]接收模块,用于接收一个或多个文件操作日志;其中,所述文件操作日志包括任务标识

操作动作

操作时间和操作路径;
[0014]分组模块,用于按照所述任务标识,对所述文件操作日志进行分组;
[0015]清洗模块,用于针对每一个所述分组,根据所述操作动作的操作类型对所述文件
操作日志中的操作路径进行清洗,将清洗后的文件操作日志依据所述操作时间进行排序,从排序结果中提取清洗后的操作路径中的文件之间的依赖关系;
[0016]生成模块,用于利用所述文件之间的依赖关系,生成所述任务标识的血缘关系

[0017]根据本公开的再一方面,提供了一种血缘关系的生成系统,包括:血缘关系的生成装置和多个计算引擎,其中:
[0018]所述生成装置接收多个所述计算引擎生成的一个或多个文件操作日志,并根据所述文件操作日志生成所述任务标识的血缘关系

[0019]根据本公开的又一方面,提供了一种电子设备,包括:
[0020]处理器;以及
[0021]存储程序的存储器,
[0022]其中,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行所述血缘关系的生成方法

[0023]根据本公开实施例的还一个方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行所述血缘关系的生成方法

[0024]本申请实施例中提供的一个或多个技术方案,通过非机构化的文本操作日志,根据操作类型进行清洗,将清洗后的文件操作日志按操作时间排序后生成其中的血缘关系,可以实现无需用户标注

生成效率大大提高,降低了人力和时间成本,适用于各式引擎的分析场景,灵活感知数据的流转,支持离线和实时的血缘关系分析,血缘关系准确且可靠的技术效果

附图说明
[0025]在下面结合附图对于示例性实施例的描述中,本公开的更多细节

特征和优点被公开,在附图中:
[0026]图1示出了根据本公开示例性实施例的血缘关系的生成方法的流程图;
[0027]图2示出了根据本公开示例性实施例的文件操作日志的生成方法的流程图;
[0028]图3示出了根据本公开示例性实施例的血缘关系的生成系统的示意图;
[0029]图4示出了根据本公开示例性实施例的文件操作日志的清洗方法的流程图;
[0030]图5示出了根据本公开示例性实施例的文件依赖关系的提取方法的流程图;
[0031]图6示出了根据本公开示例性实施例的业务标识的血缘关系的提取方法的流程图;
[0032]图7示出了根据本公开示例性实施例的血缘关系的生成装置的示意性框图;
[0033]图8示出了能够用于实现本公开的实施例的示例性电子设备的结构框图

具体实施方式
[0034]下面将参照附图更详细地描述本公开的实施例

虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开

应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围

[0035]应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,

/
或并行执行

此外,方法实施方式可以包括附加的步骤和
/
或省略执行示出的步骤

本公开的范围在此方面不受限制

[0036]本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。
术语“基于”是“至少部分地基于”。
术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”。
其他术语的相关定义将在下文描述中给出

需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置

模块或单元进行区分,并非用于限定这些装置
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种血缘关系的生成方法,其特征在于,所述生成方法包括:接收一个或多个文件操作日志;其中,所述文件操作日志包括任务标识

操作动作

操作时间和操作路径;按照所述任务标识,对所述文件操作日志进行分组;针对每一个所述分组,根据所述操作动作的操作类型对所述文件操作日志中的操作路径进行清洗,将清洗后的文件操作日志依据所述操作时间进行排序,从排序结果中提取清洗后的操作路径中的文件之间的依赖关系;利用所述文件之间的依赖关系,生成所述任务标识的血缘关系
。2.
如权利要求1所述的生成方法,其特征在于,所述任务标识对应多个节点标识,每一个节点标识为一个小组;所述针对每一个所述分组,根据所述操作动作的操作类型对所述文件操作日志中的操作路径进行清洗,包括:将每一个所述小组内的多个所述文件操作日志按照操作时间进行一次排序,获取各个所述文件操作日志中的操作路径和操作动作;判断所述操作动作的操作类型是否为读文件,在所述操作动作的操作类型为读文件的情况下,对所述操作路径的路径类型进行判断;其中,所述操作类型包括读文件和写文件;删除所述路径类型为业务路径的读文件的所述操作路径中的文件标识,得到清洗后的文件操作日志
。3.
如权利要求2所述的生成方法,其特征在于,所述写文件包括创建动作和移动动作;在所述操作动作的操作类型为写文件的情况下,还包括:判断所述文件操作日志中每一个创建动作之后是否还存在移动动作;在所述创建动作之后存在移动动作的情况下,删除所述写文件中存在临时标识的操作路径,得到清洗后的文件操作日志
。4.
如权利要求2或3所述的生成方法,其特征在于,在所述创建动作之后不存在移动动作的情况下,确定所述创建动作对应的文件操作日志异常;将异常的文件操作日志删除;或者,在所述操作路径的路径类型为代码类型的情况下,删除所述代码路径的文件操作日志
。5.
如权利要求1所述的生成方法,其特征在于,所述将清洗后的文件操作日志依据所述操作时间进行排序,从排序结果中提取清洗后的操作路径中的文件之间的依赖关系,包括:针对每一个所述小组,将清洗后的文件操作日志按照所述操作时间进行二次排序;查找所述文件操作日志的操作类型为写文件的文件操作日志;根据各个所述写文件的文件标识

所述写文件与前一写文件之间的一个或多个读文件的操作路径的路径含义,提取所述文件依赖关系,或者,根据多个所述写文件的文件标识,提取所述文件依赖关系
。6.
如权利要求1所述...

【专利技术属性】
技术研发人员:田闯赵辉李婉琪冯春锋潘丹
申请(专利权)人:度小满科技
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1